怎样处理缺失数据?
一、缺失数据的定义
我们首先来看一下缺失数据的定义:
Missing data are unobserved values that would be meaningful for analysis if observed; in other words, a missing value hides a meaningful value.
缺失数据是指一些观测后对分析有意义的未观测数据。 例如,当我们在事先调查选举情况时,有三种答案,yes,no和missing。如果这个missing表示的是此人对选举不感兴趣,将会弃权,那这就不是一个我们需要处理的缺失数据,他可以自己算作一个类别。 相反,如果代表的是虽然此人现在没有选择但在选举时会投票,那我们就要把他当作一个需要我们赋值处理的缺失数据来分析。
二、缺失数据的模式
判断数据缺失的模式是十分重要的,因为有些特定的方法只能应用在相应的模式中。
首先,我们定义一个缺失指示矩阵(missingness indicator matrix)M。 M = ( m i j ) = { 1 y i j 缺失时 , 0 y i j 没有缺失时 . \ M = (m_{ij})=\begin{cases} 1&\text{$y_{ij}$ 缺失时},\\ 0&\text{$y_{ij}$ 没有缺失时}. \end{cases}\ M=(mij)={
10yij 缺失时,yij 没有缺失时. 通常情况下,我们只给 mij 赋值0或1,但如果有需求的时候,我们也可以根据不同缺失原因使其等于2,3等其他值来帮助我们后续的区分和分析。
下面我们开始提出一些针对不同缺失模式的解决方法。
单变量缺失(Univariate Missing Data)
个体无回应缺失(Unit and Item Nonresponse in Surveys)
项目无回应缺失(item nonresponse) 4. 纵向研究中的磨损(Attrition in Longitudinal Studies) 5. 由于两个变量不能同时被同时观测而缺失(The File-Matching Problem, with Two Sets of Variables Never Jointly Observed)
有意隐藏变量无法观测缺失(Patterns with Latent Variables That Are Never Observed)
因为干预无法继续进行而缺失(Missing Data in Clinical Trials treatment discontinuation) 干预中断和分析中断(analysis dropout)是不同的。
三、缺失数据的机制
数据缺失机制是十分重要的,因为我们要通过机制判断数据之间的独立性然后再选择补充方式。
我们首先依然定义一个缺失指示矩阵(missingness indicator matrix)M。 M = ( m i j ) = { 1 y i j 缺失时 , 0 y i j