超高维离散变量筛选方法

来源 :华东师范大学 | 被引量 : 0次 | 上传用户:windtree
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
作为一种降维技术,变量筛选在超高维数据分析中发挥至关重要的作用,并且在过去十年间许多文献对其进行了讨论.无论响应变量是连续的还是离散的,大部分的现有变量筛选方法均明示或暗含着一个假设,协变量是连续的.Huang,Li&Wang(2014)[37]首先提出了一种基于Pearson卡方统计量的变量筛选方法(PC-SIS).该方法解决了在分类问题中如何筛选超高维离散变量,虽然这是一个常见的实际问题,却很少在以往文献中进行讨论.当不同协变量的分类个数不同时,变量筛选方法采用原始筛选统计量或其p值调整值的筛选表现均欠佳.本论文的主要工作具体如下:在一个分类问题中,本文发展了一种全新的且无模型假设的变量筛选方法,可用于筛选超高维的离散协变量.其独特性在于不但允许协变量的分类个数是不相等的,而且允许协变量的分类个数是发散的.响应变量的分类个数也被允许是发散的.该方法所采用的筛选信号结合了决策树算法ID3中所定义的信息增益与一个定义为协变量分类个数的对数的倒数的校正因子.而这个变量筛选方法可表示为IG-SIS.在这个方法中,每一个筛选统计量可度量响应变量和某一特定的协变量之间的相关性并用于评判这个协变量的预测能力.本文从理论和实际两个角度改进了 Huang,Li&Wang(2014)[37]所提出的变量筛选方法和调整参数的选择方法.该改进后的筛选统计量是由原本的Pearson卡方筛选统计量乘以在变量筛选方法IG-SIS中所采用的校正因子而定义的.这个变量筛选方法可称为调整后的Pearson卡方变量筛选方法(APC-SIS).当协变量分类个数不相等时,APC-SIS的筛选表现远比PC-SIS好得多.在超高维数据分析中,缺失数据是一个很常见的现象.在缺失数据中发展变量筛选的方法是非常具有挑战的,这是因为无法将传统的缺失数据处理方法直接运用于超高维的情况.本文提供了一种无模型假设的方法,可用于筛选存在可忽略缺失值的离散协变量(IMC-SIS).这种变量筛选方法可适用于有大量的存在缺失值和不存在缺失数据的协变量的数据,其中某一协变量取值的缺失仅仅与响应变量和一小部分无缺失值的协变量有关.这个缺失机制的假设就是随机缺失.本文提出了一种“两步”的变量筛选方法.对于每一个存在缺失值的协变量,第1步在无缺失概率函数的假定下筛选与缺失指示器相关的协变量;第2步基于离散数据的特殊结构,通过第1步所确定的协变量的调整,从而估计该缺失协变量与响应变量的联合概率.在给定联合概率的估计之后,本文进一步定义了变量筛选统计量,由此可以选出具有良好预测能力的协变量.就理论而言,本文证明了所提出的变量筛选方法都具有变量筛选(选择)一致性.从实际的角度,本文在多个模拟数据中验证了所提出的变量筛选方法的实际筛选效果.结果表明,其一,IG-SIS和APC-SIS在有限样本中表现相似,且比其他现有的离散数据的变量筛选方法具有优势;其二,不管缺失概率较大且协变量的相关性较高,IMC-SIS可以成功地挑选出活具有良好预测能力的协变量.另外,本文将所提出的变量筛选方法应用于信用卡评级和网络招聘的两个实际数据,其筛选结果是具有解释性且有助于下一步分析。
其他文献
盐土植物是研究植物耐盐性的重要材料,对于盐土植物耐盐基因的研究可以让我们更加深入了解植物的耐盐机制。例如植物SOS1 (Salt Overly Sensitive 1)蛋白是质膜上已知的唯一
笔者经常听到幼儿教师这样评价小班幼儿:小班孩子注意力易分散、自制力差、想象力贫乏、语言不连贯,尤其是课堂上东张西望、心不在焉的现象比比皆是。公开教学或者观摩活动中,
报纸
针对传统的聚类算法对初始聚类中心敏感、只能对单一属性聚类且聚类效果有时欠佳等不足,提出了一种能处理数值属性和分类属性的Gk-prototypes聚类算法。在经典的k-prototypes
为了比较青壳鸡蛋和褐壳鸡蛋品质的差异,以苏禽青壳蛋鸡和海兰褐壳蛋鸡2个鸡种为试验素材,采用笼养饲养方式,测定苏禽青壳蛋鸡和海兰褐壳蛋鸡鸡蛋的常规蛋品质和营养成分含量
目的 通过对荧光显像检测口腔癌患者肿瘤的切缘状态的研究,分析荧光显像与术中手术切缘相比的精确性和可靠性,判断其有无临床应用价值。方法 随机选择南京医科大学附属口腔医院口腔颌面外科自2017年10月至2019年2月共30例口腔癌患者,术前均使用VELscope(LED Medical Diagnostics Inc.,Barnaby,Canada)荧光显像并标记,术中取得共计126枚组织样本,标本包
2050年,也就是30年后,墨尔本城的公园将会变成什么样子?这是澳大利亚墨尔本未来公园概念设计竞赛提出的设计挑战。竞赛设置了墨尔本中心城区10km2的范围,要求参赛者自行选择
近几年来,国家对地方政府债务的管控非常严格,对债务规模,尤其是对地方政府融资平台债务规模的管理日益规范。随着2014年PPP模式在我国正式开展,加上关于PPP模式的相关法规政策逐步推出,PPP模式已上升成为我国一项重要的国家战略。然而,PPP项目在初始阶段需要大量资金投入,且资金回收周期较长,因而很多财力不是很雄厚的社会资本对PPP项目望而却步,这会对PPP模式的继续推进产生不利影响。2017年3
准确探讨物种多样性和生产力之间的相关关系,将有利于认识生物多样性的维持机制;研究生物量大小及其影响因素,阐明地上生物量与地下生物量的分配机制,将有助于预测生态系统对全球
为了顺应经济新常态,土地经营权制度被创造性地提出。在新时代背景下,较之原来集体内部的农户,该制度的权利主体范围扩大到了集体外部的其他经营主体。当然,这一改革不仅仅是对权利主体范围的进一步扩大,更是赋予了新权利丰富的内涵和外延。与此同时,这种权利也被认可纳入了抵押物的范畴,这就为新的权利主体向银行进行抵押贷款,以实现规模化生产,拓宽了融资渠道。自中央发布政策实施抵押业务以来,各试点因地制宜,纷纷探索
据报道,近期平遥县有关方面还将继续引导居民外迁,使古城内的居民人数保留在历史鼎盛时期的两万人左右。从1997年平遥古城入选世界文化遗产后,每年有超过100万人次的游客到访平
学位