论文部分内容阅读
随着互联网的迅猛发展,Web已经成为世界上最大的信息资源,各种不同的应用都在使用Web信息资源。搜索引擎是目前信息检索最常用的工具,它会根据用户给出的关键词搜索出与关键词相关的信息。然而,搜索引擎目前的技术还不能完全满足使用者的需求,面对用户给出的简短的关键词,其返回结果往往精度比较低。而将搜索的结果作适当聚类会很好地帮助用户搜索Web信息。
搜索结果聚类与传统的文本聚类不同,它将聚类看成一个文档分配和标签选择的过程。待聚类的搜索结果按主题的不同归入不同的类,每个类由一个标签来表征。标签作为聚类的一种描述和解释,在一定程度上反映了该类的主题。对搜索结果进行聚类可以在三个方面帮助用户:一、更容易在搜索结果中浏览与查找:二、更容易以合适的关键词来细化搜索;三、使每次搜索结果得到充分的展示与利用。
在本文中,我们将命名实体运用到了搜索结果聚类中。命名实体作为文本中的基本信息元素,具有一定的实际意义,其表征主题的能力比一般词语更强,也更具可读性。本文主要工作如下:
1、实现了一个基于隐马尔可夫模型的命名实体识别系统,并结合相应特征对模型进行调整,实验证明达到了理想的效果;
2、提出了一种基于命名实体的搜索结果聚类方法。以搜索结果文档中存在的命名实体作为聚类的标签,经过一定的标签选择和聚类合并策略,形成最终的聚类结果,在保证聚类质量的基础上提高了聚类标签的可读性;
3、将命名实体运用到描述优先算法中,针对2中方法存在的不足,将算法进行改进。首先进行候选标签的提取,然后应用潜在语义分析技术来提取文档集合中的抽象概念,经过标签匹配和内容分配,形成最终的层次聚类结果。
实验和分析表明将命名实体应用到搜索结果聚类是一种可行的思路。