论文部分内容阅读
随着计算机网络的高速发展,各种各样的文本信息如潮水般不断涌现,呈指数级增长,导致人们对信息的搜寻、过滤和管理困难,因此对文本数据的管理和分析就变得空前重要。快速高质量的文本聚类技术可以将海量的文本信息分成有意义的若干簇,这种技术能够提供导航、浏览机制,改善检索性能。因此对文本聚类技术的研究已经成为文本数据挖掘中一个非常重要的研究方向。聚类技术作为文本数据挖掘的核心技术之一,其目标是将文本集合分成若干个簇,要求同一簇内文本内容的相似度尽可能的大,而不同簇之间的相似度尽可能的小。本文对文本聚类面临的“维度灾难”问题、聚类的初始优化问题和具体的文本聚类算法进行了分析和研究。主要有以下几个方面的工作:在分析文本聚类预处理关键技术的基础上,研究了特征项的权重计算方法并利用特征项的位置权重信息对经典的TF-IDF(term frequency-inverse documentfrequency,TF-IDF)权重计算方法进行了改进,提出了P-TF-IDF(position termfrequency-inverse document frequency,P-TF-IDF)权重计算方法。用k-means等常用文本聚类算法和F1-measure等聚类有效性评价指标验证了改进后的权重计算方法P-TF-IDF在提高聚类结果有效性上的作用。针对文本聚类过程中面临的“维度灾难”问题,提出了一种特征降维处理方法topN方法,并从聚类效果评价角度验证了topN方法对文本聚类的有效性。最后结合权重计算方法P-TF-IDF和topN方法,本文在基于划分的聚类算法的基础上提出了基于topN特征词的文本聚类算法,通过测试数据对不同算法进行了对比实验分析,本文算法显示出了较高的稳定性和准确率。