三种数据缺失下高维数据的变量筛选方法比较

来源 :山东大学 | 被引量 : 0次 | 上传用户:szg6136755
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息技术的不断发展,极大地促进了数据获取技术的进步,对高维数据进行统计分析的需求也日益凸显。然而面对高维数据,尤其是典型的“大P小?”问题,传统统计方法的有效性受到了挑战。因此,高维数据建模以及相应的模型选择问题成为研究热点,不过高维数据带来的另一难题——“数据缺失”也不应被忽视。针对高维数据的模型选择、变量筛选问题,目前已经有了很多成熟的方法,然而这些方法多以完全数据为前提,未考虑数据缺失的情况。因此面对数据缺失下的高维数据变量筛选问题时,我们多采用“先填补再筛选”的策略(完全集分析会损失大量样本)。虽然目前已有相当数量的缺失数据填补方法被提出,不过这些经典的填补方法虽具有良好的统计性质却不适合应用于实际数据分析中。传统的缺失数据研究将数据缺失模式分为随机缺失(MAR)、完全随机缺失(MCAR)和非随机缺失(MNAR),缺失数据处理方法经历了完全数据集分析、替代填补法、模型预测填补法、条件分布信息提取等一系列的发展往往更专注于理论性质的研究,针对实践中的多重数据缺失问题的有效方法并不多见。本文将介绍一种与经典方法思路不同的来源于机器学习领域的缺失数据填补方法——低秩矩阵补全(Low-rank Matrix Completion),这种方法的适用范围更广,另外在最新的方法支持下,其计算速度也较快。本文也会介绍较为成熟的多重缺失数据变量筛选方法的基础MissGLasso模型,Nicolas Stadler和PeterBuhlmann(2011)基于 MissGLasso 模型提出了两种方法:MissGLasso 填充方法和MissGLasso2stage方法。这三种缺失数据处理方法都是便于处理多重数据缺失的统计方法。本文将对来源于统计学之外的新方法与经典的缺失数据处理方法进行对比,比较这些的理论、思路,并在数据模拟试验和实证研究中比较三种方法的优缺点,并研究造成缺陷的原因。其后,会将以上三种方法应用于实证研究,以枯草芽胞杆菌维生素B2产出量基因微序列数据中的基因选择的实际问题为例,测试各方法的实际效果。在本文的最后还将提出一些目前研究的不足之处,以及对未来研究方向的一些设想。
其他文献
菌根(mycorrhiza)是土壤有益真菌(以下称菌根菌)与高等植物根系间经过4.6亿多年高度进化形成的互惠共生联合体,这种互生关系对陆生生态系统影响巨大。菌根中参与物质交换主要
<正>一个公众号为什么能挣这么多钱?"时势造英雄"。新媒体观察者魏武挥不喜欢把做微信公众号的叫做自媒体人,硬是跟人争辩出一个"内容创业者"的称谓,在他看来,现在做得好的公
2015年5月盐城发现1例患者食用小龙虾后出现腹痛、干呕等症状,实验室检查发现肌酸激酶,肌红蛋白异常升高,病人随后出现感染性休克、多器官功能障碍综合征、急性肾功能衰竭等,
就我国当前的能源消耗情况来看,我国正面临着巨大的能源危机,而建筑作为能源消耗的重要组成部分,如何在建筑工程的施工过程中有效控制能耗成为了当今社会高度关注的问题。笔者就
本文根据个人在滨海快速交通发展公司自动售检票系统(AFC系统)的运营管理过程中,在维修管理体系建立、完善的基础上,结合日常设备管理经验,对系统深度自主维修的分析与总结。
本刊自本期起开辟《国际法一事一议》专栏,旨在使读者增进国际关系中这一方面的知识。世界上自从有了国家,国际法就开始以某种形式出现。现代国家之间的往来日益频繁,国际法
路灯线路漏电远程监控系统以计算机远程监控为核心,使用现代移动无线网络平台对路灯线路漏电状况进行有效监控。当路灯线路发生漏电故障时,该系统可以第一时间将故障信息发送到
<正>凤凰网消息,日前,由武汉大学文学院教授王兆鹏等人编著、中华书局出版的《唐诗排行榜》在黄鹤楼举行首发式和研讨会。之所以将地点选择在黄鹤楼,源于崔颢的《黄鹤楼》一
抽样调查下样本随机性的检验,不是考查抽样方法的优劣或是检查样本代表性的好坏,而是为了控制抽样调查的数据质量,检验所得样本和抽样方法的一致性,即调查机构是否严格按照抽