分类超曲面算法中若干问题的研究

来源 :中国科学院计算技术研究所 | 被引量 : 0次 | 上传用户:ljxue1224
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于拓扑学中的Jordan曲线定理,何清老师于2002年提出了一种通用的覆盖型分类方法--分类超曲面算法(HypelSurface Classification Method:HSC).该方法直接在原空间解决非线性分类问题,通过区域细化与区域合并获得由多个超平面组成的双侧闭曲面作为分类超曲面对空间进行划分,通过计算样本点关于分类超曲面的围绕数的奇偶性即可简单方便地判定其类别.实验表明,在二维和三维空间中,分类超曲面算法分类正确率高、速度快;而存储量和计算量都很小,从而能够处理海量数据. 虽然具备诸多优点,但作为一种新颖的分类方法,分类超曲面算法中还存在一些亟待解决的问题.本文的研究工作是从如下三个问题出发的: ●由于分类超曲面算法在高维空间实现起来比较困难,那么它如何对高维数据进行训练和分类? ●作为一种典型的覆盖型分类方法,对分类超曲面算法来说,是否存在一个具有代表性的子集可以"覆盖"整个数据集? ●为了进一步提高分类超曲面模型的可理解性,如何从中抽取出易于理解的规则并用于指导分类? 本文从分类超曲面算法的研究现状出发,相继解决了上述问题,从而使得分类超曲面算法对各类数据都具有更好的适应性、推广性以及良好的可理解性.研究内容主要包括以下四个部分: (1)作为分类超曲面算法处理高维数据的第一种解决方案,实现了一种通用的维度约简方法,并取得了和其他方法相当甚至更好的效果.这种方法通过重新排列高维数据中的所有数位来得到三维数据,在降维的过程中并没有丢失任何数位信息,因此是一种无损降维方法.而且,由于事先对高维向量的各分量运用主成份分析方法进行了重新排序,该方法在形式上属于基于等级的维度约简(Dimension Reduction Based on Rankina)方法,但在本质上是一种基于等级的维度换位(Dimension Transposition Based on Ranking)方法. (2)作为分类超曲面算法处理高维数据的第二种解决方案,基于集成学习(Ensemble Leaming)的思想,提出了高维数据划分集成方法.首先把原始高维训练集按照属性划分为若干子集,消除其中的矛盾数据,然后对每个子集启动一个HSC训练过程,得到多个分类模型;在测试阶段,对测试集作同样的划分,然后对每个测试子集调用与之相对应的分类器进行分类;最终的分类结果由多个分类器通过投票的方式决定.与传统的集成学习方法相比,高维划分集成方法最大的特点在于它是对属性集的划分而不是对样本集的划分,是纵向划分集成而非横向划分集成;它试图从高维数据的每个纵向切片来对数据进行分析,即从各个角度观察数据.实验证明,这种方法运用到分类超曲面算法对高维数据的处理问题中取得了很好的效果,在各个纵向切片中没有矛盾数据的情况下尤为适用. (3)为了从样本集中选出最具有代表性的子集,提出了极小覆盖子集(Minimal CoverSubset)的概念与计算方法,找到了影响分类效果的决定因素,这是在分类超曲面的泛化能力方面所做的基础理论性工作.分类超曲面算法中的极小覆盖子集除了具备覆盖性、极小性和存在性三个普遍性质之外,还具有两方面的特殊性质:尺度依赖性和极小一致性.极小覆盖子集提出的意义主要在于它具有以下四方面的重要特征: ·对给定样本集,极小覆盖子集能够完全、充分地反映其分类能力; ·针对分类超曲面算法,极小覆盖子集是对给定数据集的最佳采样方式; ·对给定数据集,通过其训练集与极小覆盖子集的关系,可以准确、定量地预测出由该训练集得到的分类超曲面模型对测试集的分类精度,因此极小覆盖子集是分类超曲面泛化能力的幕后操纵者; ·极小覆盖子集是PAC学习理论在分类超曲面算法中的推广,它在满足PAC学习理论提出的成功学到目标概念所需训练样本数目的边界的前提下,具体给出了训练样本集的这样一个子集. (4)作为一种几何方法,分类超曲面在很大程度上已经具备了较好的直观性与可解释性.为了进一步改善其可理解性,提出了分类超曲面算法的规则抽取与规则分类方法,使得分类知识得以显化,有利于分类知识的学习和传播.规则抽取过程是对处于不同层次不同位置的每一个单元格形成一条规则,并用于指导分类,因此规则的总数等于单元格的个数,也即极小覆盖子集中的样本数.与Ripper算法相比,分类超曲面的规则抽取与规则分类方法的优点在于其简单直接,在分类超曲面模型存储的数据结构之上实现起来非常方便,分类精度也稍高于Ripper算法;而缺点在于规则的规模(即规则条数与规则前件数)比Ripper算法要大. 文章最后对上述研究内容进行了总结,并指出了未来的研究方向.
其他文献
城市经营是城市发展中的崭新课题,是现代城市管理模式的深化和发展,它成为政府广泛用于配置资源,优化城市发展、建设和管理的新理念和行为方式,以达到提升城市竞争力,满足人们物质
温州港集团有限公司作为温州市属国有大型企业,已经发展成为浙南、闽北地区最大的港口企业集团,承担着国有资产营运管理和港口公共码头建设投资任务,业务涉及国际、国内集装箱、
新生代农民工是我国城市化进程中出现的一个特殊群体,为经济发展做出了巨大贡献,成为我国工人阶级的一个重要组成部分。随着时间的推移,新生代农民工已经渐渐的走入人们的视野,从
结构振动的主动控制是当今一个重要而热门的科研课题,它在航空航天、交通运输、机械工程、土木工程等诸多工业领域有着广阔的应用前景,是一门汇集力学、材料科学、信号处理、控
  改革开放的几十年中,中国煤机行业引进了大量国外的煤炭综采设备和先进技术,在不断探索并消化吸收国外的先进经验技术后,逐渐建立起了有中国特色的煤炭综采机械设备制造企业
近年来,随着全国城市化进程的加快,各地城镇建设规模不断扩大,拆迁冲突事件相继发生,已成为社会和政府共同关注的“焦点”。  严重拆迁冲突事件的发生,在全国引起强烈反响。不仅
采用文献资料法和数理统计法,对1997-2007年中文体育类核心期刊与一般期刊发表的新疆少数民族体育科研论文、报告以及有关研究新疆少数民族体育的优秀硕士学位论文做了系统的
随着“人类基因组计划”提出以后,人们完成对多基因组(呈现基因组序列的多态性)测序计划之后,又开始转向对这些基因和他们相互关系的功能理解的研究。在最近几年人们采用微阵
根据联合国国际劳工组织(ILO)2011年的统计,中国内地员工月平均工资为656美元(约合人民币4134.4元),随着国人收入水平的不断提高,购买能力也必然随之增强。过去作为奢侈品的汽车,走
肿瘤的多药耐药问题是目前研究的热点问题,P-gp的过度表达是产生多药耐药的主要原因。在临床上主要是通过联合应用P-gp逆转剂或加大化疗药物的用量来解决这个问题。但是,逆转