论文部分内容阅读
现今文本处理领域研究的热点是如何方便用户快速准确的搜索到所需要的文本信息。文本聚类可以提高信息搜索效率,是文本检索的有效手段。关键词提取和聚类中心点选取是文本聚类研究中的关键问题。常见的关键词提取算法可分为三类,基于语义的算法、基于机器学习的算法和基于统计模型的算法。基于语义的算法提高了关键词提取的准确率,但是依赖于背景知识库、词典等,无法提取出不包含于知识库的词或词组。基于机器学习的算法提高了关键词提取的准确率,但是训练样本、构建模型花费时间长。基于统计模型的算法原理简单,不需要训练样本,也不依赖于知识库。常见的聚类中心的选取方式有三种,随机选取初始聚类中心点、人为指定聚类中心点和根据待聚类点之间的相似度选取聚类中心点。随机选取的初始聚类中心点中可能包含“孤立点”,聚类结果局部最优。人为指定聚类中心点会因为每个人对文本集的了解程度不同而带有主观性,不适用于文本集数量很大的情况。根据待聚类点之间的相似度选取聚类中心点,可以使得选取的聚类中心点分布于各个类中并且尽量接近类中心点,但是计算聚类中心所需时间较长。针对上述问题,本文做了如下研究:(1)本文提出了基于词或词组长度和频数的关键词提取算法,算法首先提取出中文文本中出现频数较大的词或者词组,然后根据提取出的词或者词组的长度和在文本中出现的频数筛选出该文本的关键词。与现有的算法相比,本文提出的算法不依赖于背景知识库、词典等,可以提取出文本中的音译词和网络新词,无需通过对训练样本的训练获得统计参数,构建模型。实验显示本文提出的关键词提取算法,关键词提取的准确率较高,提取出的关键词可以反映出该文本的主题。(2)本文提出了基于文本之间相似度的聚类中心点选取算法,算法首先根据给定的文本集以及文本集中各个文本对应的关键词序列,构建向量空间模型,接着计算各个文本与其他文本之间的相似度,最后依据各个文本与其他文本之间的相似度筛选出聚类中心点。与现有的算法相比,本文算法选取的聚类中心点与较多的文本之间存在相似性且相似度值较大,同时相互之间的相似度较小。实验显示本文提出的聚类中心点选取算法选取的聚类中心点分布于各个类中并且与类中心点接近。