基于分类的复杂数据处理方法研究

来源 :西北大学 | 被引量 : 0次 | 上传用户:LoneStrong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
模式分类是机器学习的核心技术之一。将数据集中属性一致的样本投影到某一给定的类别当中,并模型化为具体的分类器。近年来,模式分类取得了许多重要的研究成果,出现了诸如决策树、Bayes分类、k-近邻、神经网络、遗传算法、支持向量机等经典算法。随着其应用领域的进一步扩大,需要做分类处理的数据也变得复杂多样,分类模型的建立和分类器的设计面临着越来越多的挑战。本文围绕在分类问题中如何处理高维小样本数据、多源特征数据,以及在分类过程中如何利用数据分布的复杂结构信息有效提高分类性能的问题展开了研究。主要内容如下:(1)为解决高维复杂数据的维数约简问题,提出了一种新的基于正交局部判别嵌入(Orthogonal Linear Discriminant Analysis, O-LDE)的维数约简方法,并结合最近邻方法分类。首先,建立两个能够保持数据局部邻域信息的类内和类间邻接图;其次,针对小样本问题,重新定义邻接矩阵,适当修正优化的目标函数;然后,通过构建正交基求解目标函数,完成高维空间到低维流形的嵌入;最后,在低维空间中利用最近邻法进行分类。O-LDE的维数约简方法通过对类内样本的紧密度和类间样本的分离度的保持,达到了抽取有效分类信息和压缩特征空间维数的双重效果。在公共数据集Leukemia的试验结果表明该方法在基因表达谱的肿瘤识别中比LDA、LLDE、LDE等维数约简方法表现出更好的性能。(2)针对复杂数据的多源特征难以集中到一个分类器中做决策的问题,提出了一种基于分组特征子集选择的Bayes集成学习算法(the Bayesian Ensemble Algorithm based on Grouped Feature Selection, EGFS+BC)。首先,将数据特征按来源分组,对于每个特征源随机地从中抽取一部分作为初始化的特征子集;然后,以提高Bayes基分类器的准确率和分类器之间的差异度为目标,完成特征子集的动态选择;最后,根据选择得到的特征子集训练合适的基分类器,在集成学习的框架下,用加权投票的方式进行综合决策。该方法利用了不同源特征之间的差异性和互补性,在公开的DDSM多源数据集上的试验结果显示,该方法比k-NN、 Boost C5、Neural Net等多种分类器都具有更高的分类准确率。(3)为了更好的利用复杂数据中潜在的类内结构信息,提出了基于样本空间结构学习的分组SVM方法,包括基于聚类分组的SVM(Clustered Group SVM, GC-SVM)和基于EM样本空间分割的分组模糊支持向量机方法(Grouped Fuzzy SVM Algorithm with EM-based Partition of Sample Space, EMG-FSVM)。首先,为了清楚的描述类内样本结构信息,按照一定的相似性度量规则(分别采用了聚类和EM技术)对正、负类的样本空间分别进行有效分组;然后,交叉结合不同的正、负类的群组样本,训练出不同的SVM子分类器:最后,对未知的新样本,则根据其与各划分小组中心的Mahalanobis距离选择特定的SVM分类器来判断类别。该方法将复杂的大样本二次规划问题划分为一系列小的、简单的二次规划子问题,缩短了分类器的训练时间,一定程度上还提高了分类速度。仿真和实际乳腺病灶数据的试验结果表明,该方法确实比各种不同核的SVM方法具有更好的分类效果和稳定性。
其他文献
测定了30名正常人、30名急性胰腺炎(AP)患者及10名慢性胰腺炎患者和20名其它肝胆、消化道疾病的患者血、尿淀粉酶(AMY)、肌酐(Cr),比较淀粉酶肌酐清除比率(CAMY/CCr%).
禄民工是当代中国正在崛起的一个庞大的新型阶层,在我国经济发展过程中起着不可替代的作用,但是他们大多数还游离于医疗保障体系之外。禄民工的医疗保障问题既是一个经济问题,又
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
期刊
发展循环经济是遵循科学发展观,建设环境友好型社会的必然要求,也是我国经济保持持续快速发展的必然选择.在各个层面上发展循环经济时,要以科技进步为手段,以市场为导向,调整
【正】 马雅可夫斯基是苏联的一位大诗人,也是一位出色的讽刺艺术家。讽刺作品在马雅可夫斯基的创作中占有重要的地位。他不仅写讽刺诗,作讽刺画,而且还著有讽刺喜剧,即使在
用于伤口感染检测的电子鼻系统,利用不同伤口病原菌代谢产物的种类及其浓度不同,通过识别伤口顶空气体来实现对伤口感染病原菌类型的检测。电子鼻用于伤口感染诊断具有无创、快
[摘要] 贷款风险分类是一个对借款人现金流量、财务指标及其非财务指标进行综合评价的过程。本文把贷款风险分类看作是一个模式识别问题,在此框架下,就统计模式识别领域中最新使用的神经网络方法、分类树法、以及支持向量机三种方法的建模思想、适用性进行分析,从而对我国贷款风险分类提供一些启示。  [关键词] 模式识别 风险分类 适用性    一、引言    贷款风险分类,就是根据借款人的当前经营情况和违约迹象
在传统的需求理论中,总需求的构成由消费、投资、政府支出、净出口等组成,其中消费的比重占到总需求构成的三分之二左右,而投资需求往往只占到百分之十几。但在我国近些年的