【摘 要】
:
聚类分析是数据挖掘的一个重要研究领域,已被广泛应用于统计学、生物学和市场营销等领域。目前学者已经提出了许多聚类算法。然而传统的聚类算法常常遭遇“维度效应",导致算
论文部分内容阅读
聚类分析是数据挖掘的一个重要研究领域,已被广泛应用于统计学、生物学和市场营销等领域。目前学者已经提出了许多聚类算法。然而传统的聚类算法常常遭遇“维度效应",导致算法性能降低。软子空间聚类是一种有效的处理高维数据的方法,但是现有的软子空间聚类算法通常含有一些用户难以确定的参数。在实际应用中,用户也很难找到一种聚类算法能够处理各种形状和大小的簇,而且针对某一特定数据集,也很难判断哪种算法是最优的,因此很多学者开始研究聚类融合方法。与单一的聚类算法相比,聚类融合方法具有更好的鲁棒性、适用性、稳定性、并行性和可扩展性。本文首先对子空间聚类方法、聚类融合方法、半监督学习方法和不平衡数据分类方法的研究现状进行分析。接着针对传统子空间聚类算法的不足,本文提出了一种新的软子空间聚类算法SC-IFWSA,它采用了改进的特征权重自动调节机制IFWSA,不需要用户设置任何参数值,其在每次迭代过程中根据权重增量自动调节每个簇对应的各个特征的权重。然后基于聚类融合,本文进一步提出了两种新的算法,分别用以改进传统的半监督学习方法和不平衡数据分类方法,从而提高分类器的学习性能:(1)提出一种新的基于聚类融合的半监督分类算法SSCCE,它采用了一种易于理解的估计标记置信度的方法,首先对所有数据进行多次聚类,接着对不同聚类结果进行簇标记匹配,然后将聚类一致性系数高的未标记训练数据标记后加入有标记训练集,再生成分类模型;(2)提出一类新颖的基于聚类融合的不平衡数据分类方法,旨在解决传统的分类方法对少数类的识别率较低的问题,它通过引入“聚类一致性系数”来找出处于少数类边界区域和处于多数类中心区域的样本,并分别使用改进的SMOTE过抽样方法和改进的随机欠抽样方法对训练集的少数类和多数类进行不同的处理,以改善不同类数据的平衡度,为分类算法提供更好的训练平台。实验结果表明本文提出的三种算法都是有效、可行的,能够在大部分数据集上得到较优的结果。
其他文献
协同图形编辑系统支持地域分散的一组设计群体通过网络同步高效地浏览、操作和修改共享的图形文档,而其中全复制结构下协同过程中的一致性维护和语义保持是协同设计相关研究
密码学的分析与设计是两个既相互依存又相互对立的研究方向,分组密码的这种对立统一关系促进了它的快速发展。S盒是诸多分组密码系统中的唯一非线性部件,它提供了香农理论中
Malware detection has become more difficult with the use of compression,polymorphic methods and techniques to detect and disable security sottware. Those andoth
随着信息量剧增,并且需要处理的事务增多,存储相关的数据也成为各行业的中心,例如银行、金融、政府、教育等领域,一旦这些数据损坏,将会造成不可估量的损失。存储区域网络(St
随着人类人口快速增加,城市化进程的加快和工业水平的提高,大气中灰霾污染日趋严重,为了加强对灰霾的监测和治理,开展灰霾等级的预测意义重大。
本文通过将美国环保署开发的
随着网络的发展,因特网成为目前使用最广泛,规模最大的信息源,为了方便、高效的从网络上获取所需要的信息,人们广泛使用搜索引擎来进行信息搜索。然而搜素引擎搜索出来的信息都是
H.264是MPEG和VCEG联合开发的视频压缩编码标准,其性能远远高于早期的MPEG-4和H.263编码,在2003年被ITU-T通过并且在国际上正式颁布。H.264具有高效的编码效率及网络亲和力,
作为自然语言处理的一个研究重点,语义角色标注(Semantic Role Labeling,简称SRL)是浅层语义分析的一种实现方式,它标注出句子中与谓词(可以是动词或名词等)相关的语义角色,
随着智能移动设备的日益普及,移动互联网技术的迅速发展,出现了各种各样的移动应用,而这些应用多数都是计算密集型的。为了获取良好的用户体验,移动设备就必须拥有较高的配置
加壳技术是保护软件知识产权的常用方法,但是常被恶意代码用来躲避杀毒软件的检测,因此对脱壳技术的研究是恶意代码分析的重要部分。当前已有很多有效的脱壳技术,例如定向脱壳技