论文部分内容阅读
分类问题是统计研究的核心任务之一,在生物信息学、统计物理学、金融、工业制造、质量控制等领域有着广泛的应用。经过不懈地研究,研究者们提出了多种分类方法,如Fisher判别、Logistic回归、lasso、神经网络、SVM等等。虽然分类方法很多,但随着科学技术的飞速发展,人们在生产实践过程中遇到了很多前人未曾遇到的新问题,这些问题对统计学者提出了更高地挑战。例如,在生物信息学的研究中,研究者常常希望寻找出某种疾病与基因之间的关联,然后根据基因信息来预测是否患有疾病。但困难在于需要分析的基因数量远远大于已掌握信息的病人数量。将这一情况抽象为统计问题,即,对于高维度的离散型随机变量,在样本量远远小于变量数目的情况下,如何有效地对数据进行分类。高维数据,特别是样本量远远小于变量数目的情形并不鲜见。本论文着重研究了离散数据的分类问题,我同时考察了变量数目小于样本量以及变量数量大于样本量的情形。在研究过程中,我提出了两种新的贝叶斯分类方法:SPAN-2和STAN,并随后将其推广为GSPAN-2和GSTAN以解决交互作用的噪声变量对分类造成的影响。Yuan [2009]在BEAM(Zhang and Liu [2007])基础上提出的SPAN方法。针对SPAN方法的不足,我提出了改进的SPAN-2方法。新的SPAN-2方法采用了全新的MH抽样算法,避免了SPAN方法容易陷入局部极值点的问题,提高了MCMC方法的效率。在模拟数据分析中,SPAN-2比SPAN有更高的分类准确率。随后我创新地将BEAM对变量的分组和TAN(Friedmanetal.[1997])的树状结构结合,提出了新的STAN分类方法。在构建STAN分类器的过程中,我采用了MTM(multiple-try Metropolis)技术,而TAN则采用了穷举式搜索,因此,尽管STAN模型比TAN模型更复杂,但两者的计算复杂度却是相同的O(L2·N),其中L是变量数量,N是样本量。STAN将所有自变量分为三组。噪声变量被划归为第一组,而所有的信息变量又依据其彼此间的相关性被分为两组。直观上看,第二组自变量是独立影响分类变量的信息变量,而第三组自变量则是联合影响分类变量的信息变量。对于第三组自变量,我对它们彼此之间的联合作用方式(即相关性结构)通过一个贝叶斯网络来描述。这种对自变量的建模方式使得STAN同时实现了自变量的筛选和对信息变量交互作用的辨识。在随后的模拟数据和真实数据分析中,STAN展示出了不逊于其他分类器的分类能力,特别是在变量数量远远大于样变量的情形,STAN有着比其他分类方法更高的分类准确率。不仅如此,STAN还可以准确捕捉出信息变量以及它们彼此之间的交互作用。因此,STAN展现出很好稳定性,对于不同的情形1.L=50,N=400;2.L=500,N=400;3.L=2000,N=400,STAN的分类准确率几乎没有变化,而其他分类方法随着变量数量的增长,其分类效果出现不同程度的下降。特别是模拟数据2中,我模拟了没有边际作用,只存在交互作用的信息变量,对于这种数据,我的方法有效地识别出信息变量,而其他方法没有识别出。因此,STAN方法的分类准确率远远高于其他分类方法。最后,我又进一步改进了SPAN-2和STAN方法。过去的贝叶斯分类方法大都没有考虑噪声变量的交互作用对分类的影响,因此建立模型时往往容易将交互作用的噪声变量误分为信息变量,从而降低分类准确率或增大了模型的方差。为了解决这一问题,我将噪声变量进一步分为两组,一组包含了所有彼此独立的噪声变量,另一组包含了彼此相关的噪声变量。概括起来,所有变量被分为了4个组别,噪声变量2个组别,信息变量2个组别。对应于这种新的分组,我得到了GSPAN-2和GSTAN模型。通过模拟数据的检验,GSPAN-2和GSTAN有效地解决了噪声变量被误分组的问题。因此,GSPAN-2和GSTAN有着更好的分类能力和“抗噪”能力。