论文部分内容阅读
作为一种降维技术,变量筛选在超高维数据分析中发挥至关重要的作用,并且在过去十年间许多文献对其进行了讨论.无论响应变量是连续的还是离散的,大部分的现有变量筛选方法均明示或暗含着一个假设,协变量是连续的.Huang,Li&Wang(2014)[37]首先提出了一种基于Pearson卡方统计量的变量筛选方法(PC-SIS).该方法解决了在分类问题中如何筛选超高维离散变量,虽然这是一个常见的实际问题,却很少在以往文献中进行讨论.当不同协变量的分类个数不同时,变量筛选方法采用原始筛选统计量或其p值调整值的筛选表现均欠佳.本论文的主要工作具体如下:在一个分类问题中,本文发展了一种全新的且无模型假设的变量筛选方法,可用于筛选超高维的离散协变量.其独特性在于不但允许协变量的分类个数是不相等的,而且允许协变量的分类个数是发散的.响应变量的分类个数也被允许是发散的.该方法所采用的筛选信号结合了决策树算法ID3中所定义的信息增益与一个定义为协变量分类个数的对数的倒数的校正因子.而这个变量筛选方法可表示为IG-SIS.在这个方法中,每一个筛选统计量可度量响应变量和某一特定的协变量之间的相关性并用于评判这个协变量的预测能力.本文从理论和实际两个角度改进了 Huang,Li&Wang(2014)[37]所提出的变量筛选方法和调整参数的选择方法.该改进后的筛选统计量是由原本的Pearson卡方筛选统计量乘以在变量筛选方法IG-SIS中所采用的校正因子而定义的.这个变量筛选方法可称为调整后的Pearson卡方变量筛选方法(APC-SIS).当协变量分类个数不相等时,APC-SIS的筛选表现远比PC-SIS好得多.在超高维数据分析中,缺失数据是一个很常见的现象.在缺失数据中发展变量筛选的方法是非常具有挑战的,这是因为无法将传统的缺失数据处理方法直接运用于超高维的情况.本文提供了一种无模型假设的方法,可用于筛选存在可忽略缺失值的离散协变量(IMC-SIS).这种变量筛选方法可适用于有大量的存在缺失值和不存在缺失数据的协变量的数据,其中某一协变量取值的缺失仅仅与响应变量和一小部分无缺失值的协变量有关.这个缺失机制的假设就是随机缺失.本文提出了一种“两步”的变量筛选方法.对于每一个存在缺失值的协变量,第1步在无缺失概率函数的假定下筛选与缺失指示器相关的协变量;第2步基于离散数据的特殊结构,通过第1步所确定的协变量的调整,从而估计该缺失协变量与响应变量的联合概率.在给定联合概率的估计之后,本文进一步定义了变量筛选统计量,由此可以选出具有良好预测能力的协变量.就理论而言,本文证明了所提出的变量筛选方法都具有变量筛选(选择)一致性.从实际的角度,本文在多个模拟数据中验证了所提出的变量筛选方法的实际筛选效果.结果表明,其一,IG-SIS和APC-SIS在有限样本中表现相似,且比其他现有的离散数据的变量筛选方法具有优势;其二,不管缺失概率较大且协变量的相关性较高,IMC-SIS可以成功地挑选出活具有良好预测能力的协变量.另外,本文将所提出的变量筛选方法应用于信用卡评级和网络招聘的两个实际数据,其筛选结果是具有解释性且有助于下一步分析。