基于截断协方差矩阵的高维稀疏判别分析

来源 :华北电力大学(北京) 华北电力大学 | 被引量 : 0次 | 上传用户:thelkiss
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着互联网等科学技术的飞速发展,在社会调研、基因生命科学等领域每天都会收集到海量的数据,如何从如此多的数据中提取出有用的信息已经成为人们面临的新挑战。在这种需求下,数据挖掘技术应用而生。分类作为数据挖掘技术的一个重要分支,在图像分类、行为模式识别等领域中有着极其重要的应用。目前,如何利用已知样本的信息来有效分类的研究与应用已经引起了学术界的关注。但是随着数据维数的增大,甚至出现维数p大于训练样本的个数n的现象,现在人们称之为“大p小n”,使得之前的一些经典的判别方法如距离判别、Bayes判别、Fisher判别已经不再适用,因此需要学者更深入的理论分析。事实上,关于高维稀疏数据的判别方法也已经有很多,例如独立判别法(IR)、 Feature Annealed Independence Rule (FAIR)、Nearest Shrunken Centriods Classifier (NSCC)等。这些判别方法都是在Bayes判别法基础上改进了参数估计的方法或者加入了t-检验统计量进行变量选择。然而,这些方法在估计总体协方差矩阵时只使用了特性方差的信息,忽略了特性间的相关性,使得判别效果在一些情况下不理想。本文主要利用基于截断协方差矩阵的方法,对高维稀疏数据进行分类研究。首先,将经典的Bayes判别与截断协方差矩阵的方法相结合,提出了一种新的基于截断协方差矩阵的高维稀疏数据的判别分析方法:利用高维协方差矩阵的稀疏性,使用硬阀值对样本协方差矩阵进行截断,这样不仅考虑了所有特性的方差,还考虑了相关性较大的特性间的协方差、将相关性较小或者为零的忽略,使得协方差矩阵估计与真实值更接近,从而提高判别效果。然后,从理论上给出了截断协方差矩阵判别方法错判率,同时利用数值实验加以验证。实验过程中,利用5-fold Cross-Validation准则,选择使得错判比例的平均值最小的截断阀值作为硬阀值。一方面对来自三种不同形式协方差矩阵的模拟数据进行判别分析,同时又与其他判别方法(Bayes判别法和独立判别法)比较100次模拟结果的均值与标准差。另一方面又对真实数据进行实例分析,真实案例是关于某银行客户信用问题的分类,实验的目的是判别客户是否讲信用。比较三种判别方法的判别结果,从而体现我们提出的判别方法的优越性。
其他文献
本文使用Banach压缩不动点定理和Mann迭代方法,证明了下面的五阶非线性中立时滞差分方程Δ2(anΔ3(zn+bnzn-τ))+△h(n,zh1n,zh2n,…,zhkn)+f(n,zf1n,zf2n,…,zfkn=cn,n≥n0,的不可数多个正解
概率极限理论不仅是概率论的主要分支之一,而且也是概率论其它分支和数理统计的重要理论基础.前苏联著名的概率学家Kolmogorov曾说过:”概率论的价值只有通过极限定理才能被揭示
随着生产过程的日趋复杂,如何提高大型复杂设备的可靠性和安全性问题已经引起人们的极大关注。目前,以神经网络识别法和模糊识别法为代表的智能诊断技术在故障诊断领域得到了
金融数学是一门新兴交叉学科,在国际金融界和应用数学界受到高度重视.它涉及现代金融学的资产定价理论、投资组合理论以及现代数学中的随机分析、随机控制、优化理论、数理统
传统的基于穷举搜索的暴力法在攻击密码散列时需要大量的计算,而且往往要经过很长的时间才能完成计算。 本文作者提出了一种称为索引链预计算法的密码散列攻击方法。传统