论文部分内容阅读
当前人们正处于一个“信息爆炸”的时代,因此各种各样的搜索引擎应运而生。但是由于网上的信息都是半结构化或者非结构化的,尽管采用了各种方法来提高检索结果的精度,但是检索结果中仍然包含了与用户查询不相关的页面。虽然可以采取相关度排序等方法,仍不能很方便的为用户展示结果。为了方便用户查看自己感兴趣的网页,将搜索引擎返回的结果进行聚类,使用户可以按照主题类别浏览网页,减轻用户浏览网页的负担。本文在研究中文文本聚类现状的基础上,对中文文本聚类的关键技术进行了总结,其中,包括文本预处理、文本表示模型、特征抽取、特征降维、文本相似度计算以及现有的聚类算法,并对现有的聚类算法作了分析比较。然后,论文分析并研究了文本的相似度计算,包括文档的相似度计算和相异度计算,以及簇和簇之间的邻近度度量。并且分析了支持向量回归理论和其技术上的实现。本文提出了一种基于标签词抽取的文本聚类方法,该方法的实现目标是对搜索引擎返回的搜索结果进行聚类,然后论文实现了文本聚类系统。首先从搜索结果返回的网页文档进行预处理,包括去噪、分词、去除停用词。然后从中抽取3元模型词作为标签词,提出了基于监督模型的打分方法,并对标签词做一些相似词替换、词串整合等后期处理。最后根据标签词进行语料聚类,采用了层次聚类的方法,最终完成聚类。论文设计了聚类系统,并对其进行实验,实验内容包括标签词的抽取,支持向量的回归统计,标签词的聚类实验。通过实验证明,算法在对搜索结果进行聚类时有着较好的效果,能够将类别相似的文档聚到同一个类别中。