论文部分内容阅读
当今时代已是信息的时代。随着Internet的普及应用,它已经成为人类的信息宝库。如何借助搜索引擎来帮助人们方便、高效地利用信息已成为当前IT业的研究热点之一。由于现今搜索引擎的智尚不够,人们从网络上方便高效地获取所需信息还有一定的困因此,对搜索引擎智能化技术进行研究与实现是一个极具现实意义的热点课题。搜索引擎一般包括信息采集、信息加工、信息检索和信息检索结果提供等几个部分,其中的每一部分均有很多工作要做,且大多涉及到智能技术。本文在搜索引擎智能化技术方面进行了探索,并就如下几个关键问题进行了创新和深入研究:
第一,为提高信息采集的质量,本文研究并实现了对内容雷同网页的去重处理。为了扩大信息覆盖面,搜索引擎应尽量全面地采集信息。但统计表明,Internet上有较多的冗余,因此,对网页的去重处理很有必要。在课题组原有的根据网页标题进行去重的基础上,结合主题概念自动抽取技术,本文通过对网页URL和网页间主题概念重合度的计算与分析,实现了对内容雷同网页的去重及聚类处理。
第二,研究并实现了对网页的动态采集。为了能够及时采集到有关的网页信息,搜索引擎应能根据网站及其更新速度,动态地调整其采集信息的频度。本文分析了搜索引擎如何有效地完成对网页的采集,并根据网站的相关性调节该过程,使得信息采集与更新时的针对性更强。
第三,把面向自然语言提问的理解与检索的研发工作又推进了一步。自然语言是人们表示需求最自然和最方便的工具,所以提供支持自然语言的智能检索接口不仅能使人机交互更具人性化,还能促进搜索引擎的应用普及。早几年,原课题组就已实现了中文自然语言检索,但原有的句模解析算法虽已能从提问句中提取出反映用户检索需求的核心检索项,却未能处理其中包含有复杂逻辑关系的提问。在课题组原有句模解析相关算法的基础上,本文通过定义产生式规则和使用规约算法,已能对大多数常见自然语言提问句中蕴含的概念间的逻辑关系进行初步识别及有效处理,提高了系统的智能性和实用性。
第四,在检索结果提供方面,用相关概念进行提问反馈,并对检索结果进行排序。通常,检索结果对用户使用的查询项依赖性较强。如果查询项选择不当,则检索结果往往不太理想,但要求用户每次都能准确、全面地表达出其检索需求往往也是较为困难的。为了扩大相关信息的覆盖面,本文参照多数用户在检索类似问题时的经验,提出一种相关概念反馈方法。它既考虑到用户本身的检索需求,又考虑到大多数用户的兴趣,丰富了检索内容。另外,将检索结果按照其和用户提问的相关性排序输出,一般来说能更好地满足用户的检索需求。
第五,基于用户的浏览历史,本文提出了一种预取可能相关网页的算法。有效的网页预取通常可以提高搜索引擎的处理效率和实现个性化服务。本文提出的网页预取算法充分考虑到用户在特定事件下的历史浏览行为,并使用奖励因子和排序方法使得无须遍历整个树结构就可找到相关内容。试验结果表明,该算法可以较好地完成对相关页面的预取。