【摘 要】
:
互联网时代,web中的文本数量和访问这些文档的人数一直在海量增加,对这些数量巨大的文本信息,人们要想找出一些相关主题的内容,仅靠人工的分类方法已经不能符合实际需要了。
论文部分内容阅读
互联网时代,web中的文本数量和访问这些文档的人数一直在海量增加,对这些数量巨大的文本信息,人们要想找出一些相关主题的内容,仅靠人工的分类方法已经不能符合实际需要了。借助计算机来帮助我们进行WEB内容的整理再进行后继的处理是目前一种常见的手段。文本聚类研究是数据挖掘非常热门的研究课题之一。目前研究文本聚类的算法有很多,主要集中在单次聚类及其相关参数的改进上,本文研究的重点是组合聚类方法。首先分析了文本聚类中比较流行的3种聚类算法(SOM聚类算法、K-means聚类算法、FCM聚类算法),对这3种算法进行了详细的介绍并分析了各自的优缺点。然后,结合文本特征选择方法的特点分析,提出了两种组合聚类流程模型,从理论上说明其有效性及特点,并详细介绍了与其对应的聚类算法:DSOM-FS-K-means算法和DSOM-FS-FCM算法,其中,在DSOM-FS-FCM算法中,还使用了优化函数对FCM算法中的隶属度函数进行调整,降低了孤立点数据对聚类效果的影响。最后,为了验证组合聚类算法的有效性,我们把这两种组合算法与各自相对应的单次聚类算法和没有结合特征选择的组合聚类算法进行对比,对实验结果进行分析,证明了组合聚类算法的优越性。
其他文献
虚拟手术系统是一个融合计算机技术、计算机图形学、传感器技术、生物力学、现代医学、图像处理、计算机视觉、机器人学、科学计算可视化等学科的多学科交叉研究领域,其研究
经过多年的信息化建设,学校各部门都根据自身需求建立了信息管理系统。由于在建设初期,缺乏统一的管理和设计,造成应用系统独立建设、缺乏统一的标准,各个部门自成体系的应用
随着网络技术的极大发展,网络管理的复杂性大幅增加。多厂商设备间的标准不一致性,多种接入技术,网络环境和拓扑的多变形,业务的多样化(文本、视频、音频)等,这些都为IT专家
随着铁路运输技术的不断发展,拥有安全、舒适、快捷等优点的高速铁路逐渐受到了旅客们的青睐。然而,高速铁路的快速发展也对民航市场造成了一定的冲击。为了提高人们的出行效
从能量控制来看,ZigBee网络节能机制的提出及相关的性能分析评价,如何降低网络能量消耗,提高能量效率,如何避免因节点能量过度消耗而导致的节点过早死亡、如何延长网络分割时
随着网络技术与压缩技术的发展,人们可以方便快捷地复制和传输各种数字视频。如何对大量的数字视频进行有效的版权保护成为一个迫切需要解决的问题,视频数字水印技术为这一问题
伴随着数据规模的急剧增长,集中式数据库在存储和计算等方面的局限性日趋显著,数据管理向分布式发展已成为趋势。为了对目前广泛应用的MySQL、PostGreSQL等开源数据库提供分
随着计算机技术、数字图像处理技术以及微电子技术的飞速发展,以FPGA为核心的图像处理系统已被广泛的应用在各个领域当中。本文以FPGA作为平台对视觉计算中的印刷体数字识别
随着高等教育的不断发展,高校数字化校园已经发展成为学院重要的组成部分,在现阶段高校数字化校园中,信息资源是最重要的资源,能否拥有及时、准确、全面的信息已经成为衡量一
Web服务作为新一代基础平台技术,已经得到了广泛的研究和应用。它一改传统的面向过程、面向对象和面向构件的软件开发方式,逐渐成为网络分布计算、互操作和协作领域新的里程