离散型随机变量的贝叶斯分类方法研究

来源 :北京大学 | 被引量 : 4次 | 上传用户:wangyiming1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
分类问题是统计研究的核心任务之一,在生物信息学、统计物理学、金融、工业制造、质量控制等领域有着广泛的应用。经过不懈地研究,研究者们提出了多种分类方法,如Fisher判别、Logistic回归、lasso、神经网络、SVM等等。虽然分类方法很多,但随着科学技术的飞速发展,人们在生产实践过程中遇到了很多前人未曾遇到的新问题,这些问题对统计学者提出了更高地挑战。例如,在生物信息学的研究中,研究者常常希望寻找出某种疾病与基因之间的关联,然后根据基因信息来预测是否患有疾病。但困难在于需要分析的基因数量远远大于已掌握信息的病人数量。将这一情况抽象为统计问题,即,对于高维度的离散型随机变量,在样本量远远小于变量数目的情况下,如何有效地对数据进行分类。高维数据,特别是样本量远远小于变量数目的情形并不鲜见。本论文着重研究了离散数据的分类问题,我同时考察了变量数目小于样本量以及变量数量大于样本量的情形。在研究过程中,我提出了两种新的贝叶斯分类方法:SPAN-2和STAN,并随后将其推广为GSPAN-2和GSTAN以解决交互作用的噪声变量对分类造成的影响。Yuan [2009]在BEAM(Zhang and Liu [2007])基础上提出的SPAN方法。针对SPAN方法的不足,我提出了改进的SPAN-2方法。新的SPAN-2方法采用了全新的MH抽样算法,避免了SPAN方法容易陷入局部极值点的问题,提高了MCMC方法的效率。在模拟数据分析中,SPAN-2比SPAN有更高的分类准确率。随后我创新地将BEAM对变量的分组和TAN(Friedmanetal.[1997])的树状结构结合,提出了新的STAN分类方法。在构建STAN分类器的过程中,我采用了MTM(multiple-try Metropolis)技术,而TAN则采用了穷举式搜索,因此,尽管STAN模型比TAN模型更复杂,但两者的计算复杂度却是相同的O(L2·N),其中L是变量数量,N是样本量。STAN将所有自变量分为三组。噪声变量被划归为第一组,而所有的信息变量又依据其彼此间的相关性被分为两组。直观上看,第二组自变量是独立影响分类变量的信息变量,而第三组自变量则是联合影响分类变量的信息变量。对于第三组自变量,我对它们彼此之间的联合作用方式(即相关性结构)通过一个贝叶斯网络来描述。这种对自变量的建模方式使得STAN同时实现了自变量的筛选和对信息变量交互作用的辨识。在随后的模拟数据和真实数据分析中,STAN展示出了不逊于其他分类器的分类能力,特别是在变量数量远远大于样变量的情形,STAN有着比其他分类方法更高的分类准确率。不仅如此,STAN还可以准确捕捉出信息变量以及它们彼此之间的交互作用。因此,STAN展现出很好稳定性,对于不同的情形1.L=50,N=400;2.L=500,N=400;3.L=2000,N=400,STAN的分类准确率几乎没有变化,而其他分类方法随着变量数量的增长,其分类效果出现不同程度的下降。特别是模拟数据2中,我模拟了没有边际作用,只存在交互作用的信息变量,对于这种数据,我的方法有效地识别出信息变量,而其他方法没有识别出。因此,STAN方法的分类准确率远远高于其他分类方法。最后,我又进一步改进了SPAN-2和STAN方法。过去的贝叶斯分类方法大都没有考虑噪声变量的交互作用对分类的影响,因此建立模型时往往容易将交互作用的噪声变量误分为信息变量,从而降低分类准确率或增大了模型的方差。为了解决这一问题,我将噪声变量进一步分为两组,一组包含了所有彼此独立的噪声变量,另一组包含了彼此相关的噪声变量。概括起来,所有变量被分为了4个组别,噪声变量2个组别,信息变量2个组别。对应于这种新的分组,我得到了GSPAN-2和GSTAN模型。通过模拟数据的检验,GSPAN-2和GSTAN有效地解决了噪声变量被误分组的问题。因此,GSPAN-2和GSTAN有着更好的分类能力和“抗噪”能力。
其他文献
<正>我国现行消费税制自颁布以来已实行二十余年,随着社会的发展,现行消费税制暴露出越来越多问题,使得消费税促进经济社会协调发展的整体功能不断弱化,有必要深入探索和研究
根据火电施工的特点,提出了,在UNIX操作系统下,利用新型关系型数据库Oracle建立火电施工工程质量管理信息系统。论述了如何利用SQL*Forms高效、快速地建立应用程序;怎样建立动态菜单,实现功能模块的
通过对电厂耗水量最大的闭式循环湿式冷却塔排空水的形态、粒径分布、静电特性及热力学特性等,从热力学、静电学和高压静电沉聚理论进行了分析,并在实验室和塔内做了初步的原理
为了开发出丰富多彩的移动多媒体应用程序,借助Android平台提供的良好API接口,通过程序设计开发实现了多媒体应用程序——音乐播放器。首先对Android的系统架构进行了简要的
<正>澳大利亚是资源型国家,经济发达,也是世界上公共福利最好的国家之一,其良好的基础设施和发达的公益事业得益于公私合作伙伴关系模式(Public-Private-Partnership,简称PPP
<正>新年将至,《现代城市研究》编辑部收到喜讯,接到《中文核心期刊要目总览》2008年版编委会信函通知,《现代城市研究》入编2008年版《中文核心期刊要目总览》。
<正>一、序言中国建筑遮阳产品的发展起步于20世纪90年代,随着我国国民经济的快速发展,城市建设日新月异,遮阳产品已经大量用于实际工程中,比如上海第
中国制鞋产业集群呈现出同时嵌入多条不同类型价值链的格局,各条价值链在内部治理强度上表现出明显差异,与欧美等发达国家形成的价值链呈现出准等级治理的特点;而与中东、拉
目的分析该院急性白血病患者院内感染的危险因素,建立院内感染风险评估表,探讨对高风险患者采用系统化干预措施的感染防控效果。方法通过对急性白血病患者院内感染7个相关危
<正>2011年7月1日,城镇居民养老保险在全国层面试点推行,这是继2009年新型农村社会养老保险试点后党中央、国务院为加快建设覆盖城乡居民的社会保障体系作出的又一重大战略部