论文部分内容阅读
自九十年代产生以来,数据挖掘技术的研究已经比较深入,研究范围涉及到关联分析、分类分析、聚类分析、趋势分析等多个方面。在常见的非结构化数据如文本、图像、视频中,文本数据是应用最为广泛的一种形式,因此文本挖掘成为了数据挖掘领域中的一个重要组成部分。
本文通过对传统信息检索技术中文本挖掘的介绍,在传统的文本挖掘基础上提出了一种新型的、更有效的聚类算法——基于单词超团的二分图聚类算法。超团是一种特殊的频繁项集,其中附加了整体相似度的约束,利用超团的这种特性,将其应用于文本聚类,在给定的文本集中挖掘单词最大超团,可以保证每个单词超团内部任意两个元素的相似度不低于事先给定的下界,从某种意义上来讲保留了文档中的简单语意。因此将单词超团作为文本向量的扩展特征在聚类过程中加以使用,能够保证在聚类过程中提高结果的准确性。
本文完成了理论的提出和对整个过程的设计和实现,其中利用单词超团集合进行文本聚类的方法划分为三个步骤:挖掘最大单词超团集合,构成二分图结构和对图进行划分。在此基础上,通过对现实世界提取的若干数据集的测试,根据得到的聚类划分评测指标NMI、CE、ERR、F-measure与标准二分图聚类结果的比较证实了单词超团聚类划分的优越性。