搜索引擎智能化技术的研究与实现

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:fwy825
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当今时代已是信息的时代。随着Internet的普及应用,它已经成为人类的信息宝库。如何借助搜索引擎来帮助人们方便、高效地利用信息已成为当前IT业的研究热点之一。由于现今搜索引擎的智尚不够,人们从网络上方便高效地获取所需信息还有一定的困因此,对搜索引擎智能化技术进行研究与实现是一个极具现实意义的热点课题。搜索引擎一般包括信息采集、信息加工、信息检索和信息检索结果提供等几个部分,其中的每一部分均有很多工作要做,且大多涉及到智能技术。本文在搜索引擎智能化技术方面进行了探索,并就如下几个关键问题进行了创新和深入研究: 第一,为提高信息采集的质量,本文研究并实现了对内容雷同网页的去重处理。为了扩大信息覆盖面,搜索引擎应尽量全面地采集信息。但统计表明,Internet上有较多的冗余,因此,对网页的去重处理很有必要。在课题组原有的根据网页标题进行去重的基础上,结合主题概念自动抽取技术,本文通过对网页URL和网页间主题概念重合度的计算与分析,实现了对内容雷同网页的去重及聚类处理。 第二,研究并实现了对网页的动态采集。为了能够及时采集到有关的网页信息,搜索引擎应能根据网站及其更新速度,动态地调整其采集信息的频度。本文分析了搜索引擎如何有效地完成对网页的采集,并根据网站的相关性调节该过程,使得信息采集与更新时的针对性更强。 第三,把面向自然语言提问的理解与检索的研发工作又推进了一步。自然语言是人们表示需求最自然和最方便的工具,所以提供支持自然语言的智能检索接口不仅能使人机交互更具人性化,还能促进搜索引擎的应用普及。早几年,原课题组就已实现了中文自然语言检索,但原有的句模解析算法虽已能从提问句中提取出反映用户检索需求的核心检索项,却未能处理其中包含有复杂逻辑关系的提问。在课题组原有句模解析相关算法的基础上,本文通过定义产生式规则和使用规约算法,已能对大多数常见自然语言提问句中蕴含的概念间的逻辑关系进行初步识别及有效处理,提高了系统的智能性和实用性。 第四,在检索结果提供方面,用相关概念进行提问反馈,并对检索结果进行排序。通常,检索结果对用户使用的查询项依赖性较强。如果查询项选择不当,则检索结果往往不太理想,但要求用户每次都能准确、全面地表达出其检索需求往往也是较为困难的。为了扩大相关信息的覆盖面,本文参照多数用户在检索类似问题时的经验,提出一种相关概念反馈方法。它既考虑到用户本身的检索需求,又考虑到大多数用户的兴趣,丰富了检索内容。另外,将检索结果按照其和用户提问的相关性排序输出,一般来说能更好地满足用户的检索需求。 第五,基于用户的浏览历史,本文提出了一种预取可能相关网页的算法。有效的网页预取通常可以提高搜索引擎的处理效率和实现个性化服务。本文提出的网页预取算法充分考虑到用户在特定事件下的历史浏览行为,并使用奖励因子和排序方法使得无须遍历整个树结构就可找到相关内容。试验结果表明,该算法可以较好地完成对相关页面的预取。
其他文献
搜索引擎是Internet迅猛发展的产物。它的出现使信息检索变得非常方便。但是,随着Internet以及随后出现的WWW技术的不断发展,导致网络所蕴涵的信息量急剧地膨胀。面对当前如
有限状态机用于对系统的动态行为建模,一般用状态图来可视化表示,是对反应式系统建模的一种强大工具。但是长期以来状态图仅仅作为软件设计过程中的动态视图,并没有作为一种开发
随着计算机技术和Internet的发展,基于网络的教学评价系统得到了长足的发展和应用。但是目前基于网络的教学评价系统采用的教学评价模型简单且已固化,不可替换,不仅维护性差,而且
近年来,Internet技术的快速发展,使得各种网络产品和网络服务层出不穷,网络用户数量和网络流量也越来越大,网络性能已经成为十分重要的问题。网络性能评价和测量技术也就变得越来
飞行器设计是一个由多门学科协同进行设计的过程。一方面各学科所涉及的知识领域不同,开发语言等编程习惯也不尽相同,各学科所开发的应用系统通常建立在不同的运行环境中,采用不
随着信息技术在工业界的迅猛发展,数据的规模与人们获取的数据也与日俱增,对这些海量数据的处理已成为近来年备受关注的问题。数据挖掘作为一种通用的知识发现技术,是在海量数据
一个系统的软件架构的建立包括业务模型架构和支撑环境架构两方面。分层架构强调基于层次化组件构建应用系统,本文结合中央电大教务管理系统的业务需求,按照分层架构的原则,介绍
随着计算机应用领域的不断扩大,数据的规模越来越大,查询也越来越复杂,分布式索引以其高性能的特点而逐渐成为解决这类复杂问题的有效手段。由于Web数据具有海量的特征,对索
水下无线传感器网络是由一系列具有声学通信能力和计算能力的传感器节点构成的水下检测网络系统,在海洋资源勘测,水污染检测、海洋地震监控、战术监视等领域都有着广泛的应用