论文部分内容阅读
目前,随着网络技术与计算机技术的日益发展,互联网已经成为当前人们获取信息的主要来源之一。面对着互联网上信息日益持续地增长,仅仅使用传统方法想要从大规模的数据中获取自身确切需要的信息已变得越来越难。因此,如何有效的组织和管理这些信息成为当前急需解决的问题,而文本聚类分析正是一种有效的组织和管理文本信息的工具,它能发现大规模数据中潜在的有用模式。然而,对大规模文本数据进行聚类时,传统聚类算法的时间复杂度很高;且当数据出现更新时,必须对整个数据集进行重新聚类,这也大大地降低了聚类的效率。针对这些问题,人们非常期望进行增量更新,而增量聚类算法就是在已有聚类结果的基础之上,通过对新增数据逐个或者批量进行处理,能够降低聚类时间复杂度,提高聚类效率,但如何保证增量聚类算法能达到传统聚类算法的效果是一个值得研究的问题。本文提出了一种基于簇特征的文本增量聚类算法,该算法由初始聚类和增量聚类两个阶段组成。在初始聚类阶段,本文首先充分利用简单、高效的k-means算法进行聚类,并保留聚类后每个簇的簇中心、均值、方差、文档数、3阶中心矩和4阶中心矩作为该簇的簇特征;当出现新增文本时,算法进入增量聚类阶段,首先计算新增文本与初始聚类阶段所得簇之间的得分,为进一步提高聚类的准确度,本文使用文本与簇的相似度值结合欧几里得距离值的方式计算新增文本与已有簇之间的得分,之后将该文本放入得分最高的簇中,并更新该簇的簇特征,最后利用更新前后簇特征的变化确定文本最终所属簇。通过该方法,我们就无需再对整个数据集重新进行聚类。本文的工作主要包括以下两点:1、提出了基于簇特征的文本增量聚类算法,并将该算法与文本非增量聚类算法(即传统聚类算法)的结果进行了比较。在20newsgroups数据集上的实验结果表明,相比于对整个数据集进行重新聚类,本文提出的算法有更高的纯度及更低的时间复杂度,并能达到比传统聚类算法更好的效果;且将其与新近提出的文本增量聚类算法进行比较的结果也说明其具有一定的优势。2、使用将相似度与欧式距离值相结合的方式计算新增文本与已有簇之间的得分,并利用簇特征的变化判断文本最终所属簇。实验结果表明,该方法能有效的提高聚类效果。