论文部分内容阅读
20世纪90年代以来,随着信息技术和数据库技术的迅猛发展,人们可以非常方便地获取和存储大量数据。数据大多以文本形式存在。如何从大规模的文本中快速获取所需要的信息呢?文本挖掘就是加工和处理这些文本,从而为人类提供更多的信息。作为文本挖掘的重要分支,文本聚类技术的研究有着重要的意义。文本聚类的目标是将文档集合分成若干个簇,要求同一簇内文档内容的相似度尽可能的大,而不同簇之间的相似度尽可能的小。作为文本挖掘的一个重要应用,文本聚类已经成为一个研究热点。
本文介绍了文本挖掘的研究背景、研究意义、研究现状和相关基本理论知识。分析研究了文本的预处理过程,重点研究了中文文本的分词问题。本文采用基于词典的正向最大匹配法实现文本预处理,结合退一字回溯法发现歧义字段,对歧义字段的处理采取的是基于统计词频的方法。对文本预处理的特征表示与特征选择进行了探讨,本文采用向量空间模型(VSM)对文本进行表示;而文本的特征选择则采用TFIDF评估函数。在对K-means聚类算法进行分析研究后,本文提出了基于分段技术的K-means聚类算法,对于聚类分析中普遍存在的初始中心选择问题进行优化。并且,通过实验证明这种方法的可行性,能够明显的减少聚类过程中迭代次数和CPU计算时间。
最后,本文设计了一个文本聚类系统,测试了本文设计的基于分段的改进后的K-means聚类算法的聚类效果。测试结果表明,该系统能够达到将同类文本聚类的目的。