论文部分内容阅读
在人口普查、环境监测及医学科学纵向研究等大型资料分析中,经常遇到数据缺失问题,它给数据分析与应用带来很多困难。许多的分析模型和统计方法都要求数据完全(complete-data),即对所要分析的每个变量,其每条记录中变量值不能有缺失,如随机区组、重复测量设计以及大型数据回归分析。若某单元数据有缺失,资料将无法进行分析。传统的数据处理中,常把变量中含有缺失的记录列举删除(list-wise deletion),这样所得结果不仅是建立在非完全数据基础上的分析,而且会损失原有资料的部分信息,有可能造成因有效分析数据集样本例数减小,检验效能随缺失比例增加而降低,同时也可因原始记录中有意义的部分被排除在外,导致分析结果偏性加大,甚至得出错误的结论。本文通过对传统缺失数据处理的列举删除、配对删除、权重估计及单一估计等方法的回顾与对比,着重讨论了单一估计五种方法(均值估计、随机抽取估计、线性回归法、函数估计法及微分残差项法)的基本原理,阐明缺失数据处理中不同方法的适用场合。认为用传统的缺失数据处理方法,忽略了缺失数据的不确定性,应用中有许多缺陷与不足。结合国内外近10年的研究进展,详细阐述了缺失数据多重估算MI(multiple imputation)的基本原理。将数据缺失方式划分为随机缺失,非随机缺失与完全随机缺失,这对于合理编写缺失数据推估程序,正确选用估算方法有很重要的意义。文中对Bayesian基本理论、马尔可夫链蒙特卡罗方法及数据增广算法在缺失数据分析中的应用作了详细的论述。 以北京高血压联盟研究所2000-2002年关于波依定治疗高血压病HOT方案研究为实例,对临床试验数据进行了缺失数据的多重估算分析。选取部分数据作为完全数据集,由此模拟随机缺失建立的缺失数据集,用NORM软件推估缺失值建立的NORM MI数据集和用SAS MI推估缺失值建立的SAS 山厄写医科大学币页士学位论文含矢失笙欠据的估计与应用MI数据集,用SAS中的MIXED过程,编程运行,将结果进行对比与分析。为更充分准确地利用缺失数据资料信息,拓宽缺失数据多重估算在医学研究中的应用,提供理论依据。 本文主要的结论有:1.缺失数据的传统估算方法虽简单易行,但山于未考虑缺失值的不确定性、加大抽样误差、扭曲样本分布等,无法真实地反映研究事物的特征。2.缺失数据多重估算是目前最为系统和完善的一种方法。随着计算机技术的发展,用于多重估算的软件包很多,应用较为方便。3.实际资料分析证实,对缺失数据进行多重估算,比不进行任何补救措施所获结果更接近于完全数据集。在目前现代统计资料分析中,缺失数据的多重估算具有实际意义,是一种值得推广的统计分析技术。