论文部分内容阅读
信息技术的不断发展,极大地促进了数据获取技术的进步,对高维数据进行统计分析的需求也日益凸显。然而面对高维数据,尤其是典型的“大P小?”问题,传统统计方法的有效性受到了挑战。因此,高维数据建模以及相应的模型选择问题成为研究热点,不过高维数据带来的另一难题——“数据缺失”也不应被忽视。针对高维数据的模型选择、变量筛选问题,目前已经有了很多成熟的方法,然而这些方法多以完全数据为前提,未考虑数据缺失的情况。因此面对数据缺失下的高维数据变量筛选问题时,我们多采用“先填补再筛选”的策略(完全集分析会损失大量样本)。虽然目前已有相当数量的缺失数据填补方法被提出,不过这些经典的填补方法虽具有良好的统计性质却不适合应用于实际数据分析中。传统的缺失数据研究将数据缺失模式分为随机缺失(MAR)、完全随机缺失(MCAR)和非随机缺失(MNAR),缺失数据处理方法经历了完全数据集分析、替代填补法、模型预测填补法、条件分布信息提取等一系列的发展往往更专注于理论性质的研究,针对实践中的多重数据缺失问题的有效方法并不多见。本文将介绍一种与经典方法思路不同的来源于机器学习领域的缺失数据填补方法——低秩矩阵补全(Low-rank Matrix Completion),这种方法的适用范围更广,另外在最新的方法支持下,其计算速度也较快。本文也会介绍较为成熟的多重缺失数据变量筛选方法的基础MissGLasso模型,Nicolas Stadler和PeterBuhlmann(2011)基于 MissGLasso 模型提出了两种方法:MissGLasso 填充方法和MissGLasso2stage方法。这三种缺失数据处理方法都是便于处理多重数据缺失的统计方法。本文将对来源于统计学之外的新方法与经典的缺失数据处理方法进行对比,比较这些的理论、思路,并在数据模拟试验和实证研究中比较三种方法的优缺点,并研究造成缺陷的原因。其后,会将以上三种方法应用于实证研究,以枯草芽胞杆菌维生素B2产出量基因微序列数据中的基因选择的实际问题为例,测试各方法的实际效果。在本文的最后还将提出一些目前研究的不足之处,以及对未来研究方向的一些设想。