论文部分内容阅读
万维网产生以后,将遍布全球各地的计算机联系到一起,这些计算机中的数据资源组成的规模庞大的数据库,拥有了一台能够联网的计算机,就等于拥有了整个万维网上的所有资源,人们不再为缺乏知识来源而发愁。然而,新的问题也随之产生,面对如此庞大的数据库,寻找真正需要的信息无异于大海捞针。因此数据挖掘技术应运而生,在诸多数据格式中文本格式占较大比例,针对文本数据的挖掘技术引起广泛关注。文本聚类是文本挖掘中的重要课题,文本聚类主要是指聚集主题相关文本,分离主题无关文本。文本聚类的主要过程是先将非格式化的文本数据预处理为格式化数据,接着使用聚类算法进行聚类。在上述背景下,本文分析了现有的文本聚类方法中的不足,并在此基础上对改进文本预处理过程和改善聚类算法两个方面做了深入的研究。本文的主要工作与贡献如下:本文系统地研究了与文本聚类相关的每个过程,提出将每个文本中出现的频繁闭词序列(Frequent Closed Word Sequence)作为文本特征的思想,这一思想的目的是降低文本数据的维度,解决维灾难问题,增大文本特征选择的粒度,考虑文本中词汇的顺序性与连续性在表达文本主题方面的作用。接着设计实现一种基于模式增长方式的频繁闭词序列的挖掘算法,最后运用在从文本集合中挖掘出的频繁闭词序列集,提出基于频繁闭词序列集的层次聚类算法(Frequent Closed Word Sequence Set Based Hierarchical Clustering Algorithm),该算法采用频繁闭词序列集作为文本相似度量标准避免使用传统基于距离的度量标准,进一步降低了文本特征向量的维度并且将聚簇结果簇数目作为可选参数。FCWSS-Based AHC算法不但能够产生精度较高的结果簇,而且为每个簇产生层次结构的簇描述,使得聚类结果的可理解性更强,该算法可以用于个性化推荐系统中构建层次结构的用户兴趣模型,体现出聚类结果的可用性特点。