【摘 要】
:
数据缺失的存在是实际分析中经常出现的问题。然而大部分统计方法无法直接应用在不完整数据集上,这大大降低了统计学的应用价值。常用的填补方法都是针对于连续变量或者分类
论文部分内容阅读
数据缺失的存在是实际分析中经常出现的问题。然而大部分统计方法无法直接应用在不完整数据集上,这大大降低了统计学的应用价值。常用的填补方法都是针对于连续变量或者分类变量,本文针对混合型数据的填补方法展开。本文首先简单介绍了主成分分析,PCAMIX以及PCAMIX单值填补算法;接着给出了主成分分析基于交叉验证(cross-validation)选择维数的方法;最后考虑到缺失值的变异性,引出了多重填补思想。论文的主要工作如下。首先以主成分分析基于cross-validation选择维数的方法为基础,给出了PCAMIX基于cross-validation选择维数的方法;接着利用多重填补的思想给出了PCAMIX多重填补算法(MI-PCAMIX)。其次基于模拟数据和真实数据,主要探讨了PCAMIX单值填补和多重填补的特性。单值填补:比较了连续变量,分类变量分开填补和同时填补的效果;同时讨论了变量间相关性和信噪比对填补的影响。多重填补:运用投影方式讨论了数据结构和缺失率对MI-PCAMIX得到的多个数据集的影响;同时详细说明了在Rubin汇总法则下,MI-PCAMIX的过程。本文得到的PCAMIX单值填补和多重填补特性如下。单值填补方面:当数据缺失的比例增大时,填补的误差也随之增大;连续变量和分类变量一起填补要优于分开填;一般信噪比越大,填补的效果要越好;一般变量间的相关系数越大填补的效果越好。多重填补方面:当数据结构较强时,填补的数据较为紧密和可靠;当缺失率较小时,填补的数据较为紧密和可靠。
其他文献
在中试装置上对催化剂LNEH-1进行了醚化原料催化裂化轻汽油选择性加氢脱除二烯烃的应用研究,考察了该催化剂的加氢性能、异构化能力及稳定性。结果表明,在进料空速为2h-1,反
传统图案是我们的祖先经过不断沉淀、延伸、衍变,形成的中国特有的图案形式,作为一种特殊的视觉符号,表现出各种形式的视觉特征。其中典型的视觉形式特征有图案符号的认知范
近十年以来,我国的职业教育获得了突飞猛进的发展,加快职业教育的改革已成为我国教育改革的重要内容,相关政策接连不断地出台。在一系列加快职业教育的政策推动下,我国的职业
针对《高级语言程序设计》课程教学中存在的共性问题,引入了任务驱动型案例教学法,并通过实践教学过程中的实例探讨了对任务驱动型案例教学法的组织、实施和归纳总结等关键环
计算机课程教学是我国高职院校教育教学工作中的重要组成部分,科学、高效的课程教学对促进学生学科的知识积累,拓展视野,增强学生计算机运用技能以及提高其综合学习水平等均
成人教育的主要目的在于推动成人发展,其中成人社会性发展属于成人发展的核心体现,是影响成人教育实践的关键要素,包括了早期、中期、晚期等多个阶段。为推动成人教育的进一步发
在我国 ,法律方法论一直是一门处于边缘位置、发展迟缓落后的学科 ,主要原因在于 ,人们始终把法律方法论作狭义的理解 ,对其角色的工具性、实用性定位 ,在观念上的单一陈旧 ,
我国于2009年12月颁布了《中华人民共和国侵权责任法》涉及到了不真正连带责任,但是在我国的立法中,并没有明确规定“不真正连带责任”这一概念,在诸多国外立法中如《德国民
对职务犯罪进行有效预防,是我国检察机关的重要职能之一。不断加强职务犯罪预防机制建设,不仅能对职务犯罪进行有效地打击,而且还能对其进行有效预防,尤其对检察机关提高自身
在赵C姓名权案中,赵C据以对抗国家公权力干涉的姓名权,不是作为普通民事权利的姓名权,只能是作为宪法基本权利的姓名权,它属于自己决定权的范畴。自己决定权是指公民对于与个