改进的K均值算法在中文文本聚类中的研究

来源 :安徽大学 | 被引量 : 0次 | 上传用户:mumuww
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息时代的到来,各种电子文本数据急剧增加,如何对庞杂的数据进行有效的管理并快速的获取需要的信息,已成为一项亟待解决的重要课题。文本聚类和文本分类作为一个有效的管理和组织文本的工具,受到了越来越多的重视和研究。本文以中文文本聚类为研究对象,对中文文本聚类全过程进行了较为深入的研究,包括文本预处理,文本聚类。针对K均值算法(KM)和二分K均值算法(BKM)在聚类分析存在的不足,基于合作聚类思想,提出了一种改进的文本聚类算法:合作二分K均值算法(CBKM)。本文主要的工作和取得的成果如下:(1)对当前主要的文本聚类方法及代表性算法进行了深入分析和研究,指出了各种代表性算法的优缺点及适用范围。(2)对文本聚类中文本表示模型、文本间距离的度量和文本预处理等关键技术问题进行了较为深入的探讨。(3)K均值算法(KM),其聚类效果由于受初始聚类中心的影响,k值选择难以有统一标准,且初始聚类中心的选择会对聚类产生较大影响,孤立点的存在造成很难找到全局最优解。而二分K均值算法(BKM),其在聚类过程中产生的成员碎片难以通过其他方法来进行重新聚类。针对KM算法和BKM算法在聚类中存在的缺陷,作者基于合作聚类的思想,提出了一种合作二分K均值算法(CBKM)。该算法主要分为整体聚类、合作聚类和融合三个阶段。该算法是在BKM产生CF树的过程中与通过KM进行同步的中间合作来实现的。通过引入相似柱状图的概念,其能够直观的反应簇之间元素的粘合性。并根据子类相似的相似柱状图计算出两个子类的融合因子,将融合因子值最大的两个簇进行融合,更新聚类簇。此过程产生的聚类结果能够有效的避免聚类碎片的产生,并且由于是对子类的交集进行合并聚类,所以有效的改善了K均值算法受初始聚类中心影响,该算法得到的是全局最有解,而不是局部最优解。(4) CBKM算法是建立在KM算法和BKM算法的融合基础上,从性能上来看,CBKM算法的时间复杂度高于KM算法和BKM算法,但低于两者的和。(5)基于搜狗语料库,分别对KM算法、BKM算法和CBKM算法进行中文文本聚类实验。结果表明:在互信息、纯度、F度量这三个度量标准上,CBKM算法均高于其他两个算法;而在熵值这个度量标准上,CBKM算法明显低于其他两个算法。因此,CBKM的聚类性能优于BKM和KM算法。
其他文献
网络拓扑发现算法和实现技术是衡量网络管理系统性能的一个重要方面。本文通过开发网络管理系统网络拓扑发现服务模块过程中获得的理论和实践经验,从物理拓扑算法进行了积极的
序列模式挖掘是数据挖掘的一个重要分支,在金融通讯等领域应用中,序列模式挖掘发挥了重要的作用。虽然到目前为止,关于序列模式的挖掘算法已经相对成熟,但绝大部分算法都是面
工作流技术在软件开发领域得到了广泛的应用,基于工作流开发方式的软件同样需要软件质量控制体系来进行质量控制,而专门针对以工作流技术为开发方式软件的质量控制却鲜有研究。
自上个世纪90年代以来,面向对象的软件开发技术成为软件开发的主流技术,使得基于面向对象的软件复用被视为解决软件危机的一条现实可行的途径。按照复用的不同级别,软件复用
近年来,虚拟化应用场景日益增多,多用户拥有独立逻辑空间、共享后台资源,随着CPU计算资源和网络带宽资源大幅提升,存储资源逐渐成为性能瓶颈。固态盘(SSD)具有高性能、低能耗
学位
面对海量数据,利用图计算或机器学习等具有迭代特征的复杂应用对其进行处理很常见。通过在迭代之间共享缓存数据,典型的分布式内存计算系统如Spark极大地提升了迭代程序处理
互联网的普及和电子商务的迅速发展造成了信息的过载,用户在大量的产品信息中难以找到需要的商品,由此,电子商务推荐系统应运而生。当前,电子商务推荐系统在实际运用中还不成
随着高性能并行系统的发展进步,并行计算的运用越来越受到广泛的重视,在并行计算性能提高需求增长的同时,I/O设备和CPU速度的增长率不匹配成为并行计算性能提高的主要瓶颈,所
随着J2EE技术大规模的应用,EJB技术受到广泛的质疑。EJB技术给J2EE应用开发带来了严重的复杂性和巨大的开销。降低J2EE的复杂性开始成为开发者的主要关注点。目前,在开源社区