论文部分内容阅读
随着科技的进步,人类收集、存储数据能力的提高,超高维数据的分析变得越来越重要.从计算成本、统计准确性和模型可解释性的角度考虑,传统的方法不能直接应用到超高维数据分析上来.在高维数据分析中,我们通常对数据进行稀疏性假设,即只有一小部分变量对因变量有影响.对于超高维数据分析,我们一般先将原来的协变量个数降到一个温和的程度,然后在此基础上,利用现有的较为成熟的变量选择方法(如LASSO, SCAD, MCP等)进行最后的模型选择和参数估计.本文在Fan和Lv提出的非参数独立筛选法(Nonparametric Independence Screening)的基础上,结合了“数据劈开”(sample splitting)的想法,在超高维部分线性模型的假定当中进行筛选.第二章中,我们介绍了非参数独立筛选法和在“数据劈开”情况下的算法,又进一步提到了一个改进的greedy方法.第三章中我们证明了非参数独立筛选法的确定性筛选性质(sure screening property)和控制错选率的一个性质.最后一章,利用计算机模拟的手段验证了本文提出的方法和几种变体方法的筛选效果,并和其他传统的筛选方法进行对比,最终显示出了非参数独立筛选法卓越的性质和实用价值.