搜索引擎智能化技术的研究与实现

来源 :上海交通大学 | 被引量 : 0次 | 上传用户：fwy825

【摘要】

：

当今时代已是信息的时代。随着Internet的普及应用，它已经成为人类的信息宝库。如何借助搜索引擎来帮助人们方便、高效地利用信息已成为当前IT业的研究热点之一。由于现今搜索

【作者】

：

高凯

【机构】

：

上海交通大学

【出处】

：

上海交通大学

【发表日期】

：

2007年期

【关键词】

：

计算机网络网络服务信息检索数据挖掘

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

当今时代已是信息的时代。随着Internet的普及应用，它已经成为人类的信息宝库。如何借助搜索引擎来帮助人们方便、高效地利用信息已成为当前IT业的研究热点之一。由于现今搜索引擎的智尚不够，人们从网络上方便高效地获取所需信息还有一定的困因此，对搜索引擎智能化技术进行研究与实现是一个极具现实意义的热点课题。搜索引擎一般包括信息采集、信息加工、信息检索和信息检索结果提供等几个部分，其中的每一部分均有很多工作要做，且大多涉及到智能技术。本文在搜索引擎智能化技术方面进行了探索，并就如下几个关键问题进行了创新和深入研究：第一，为提高信息采集的质量，本文研究并实现了对内容雷同网页的去重处理。为了扩大信息覆盖面，搜索引擎应尽量全面地采集信息。但统计表明，Internet上有较多的冗余，因此，对网页的去重处理很有必要。在课题组原有的根据网页标题进行去重的基础上，结合主题概念自动抽取技术，本文通过对网页URL和网页间主题概念重合度的计算与分析，实现了对内容雷同网页的去重及聚类处理。第二，研究并实现了对网页的动态采集。为了能够及时采集到有关的网页信息，搜索引擎应能根据网站及其更新速度，动态地调整其采集信息的频度。本文分析了搜索引擎如何有效地完成对网页的采集，并根据网站的相关性调节该过程，使得信息采集与更新时的针对性更强。第三，把面向自然语言提问的理解与检索的研发工作又推进了一步。自然语言是人们表示需求最自然和最方便的工具，所以提供支持自然语言的智能检索接口不仅能使人机交互更具人性化，还能促进搜索引擎的应用普及。早几年，原课题组就已实现了中文自然语言检索，但原有的句模解析算法虽已能从提问句中提取出反映用户检索需求的核心检索项，却未能处理其中包含有复杂逻辑关系的提问。在课题组原有句模解析相关算法的基础上，本文通过定义产生式规则和使用规约算法，已能对大多数常见自然语言提问句中蕴含的概念间的逻辑关系进行初步识别及有效处理，提高了系统的智能性和实用性。第四，在检索结果提供方面，用相关概念进行提问反馈，并对检索结果进行排序。通常，检索结果对用户使用的查询项依赖性较强。如果查询项选择不当，则检索结果往往不太理想，但要求用户每次都能准确、全面地表达出其检索需求往往也是较为困难的。为了扩大相关信息的覆盖面，本文参照多数用户在检索类似问题时的经验，提出一种相关概念反馈方法。它既考虑到用户本身的检索需求，又考虑到大多数用户的兴趣，丰富了检索内容。另外，将检索结果按照其和用户提问的相关性排序输出，一般来说能更好地满足用户的检索需求。第五，基于用户的浏览历史，本文提出了一种预取可能相关网页的算法。有效的网页预取通常可以提高搜索引擎的处理效率和实现个性化服务。本文提出的网页预取算法充分考虑到用户在特定事件下的历史浏览行为，并使用奖励因子和排序方法使得无须遍历整个树结构就可找到相关内容。试验结果表明，该算法可以较好地完成对相关页面的预取。

其他文献

P2P环境下基于Ontology的搜索引擎

搜索引擎是Internet迅猛发展的产物。它的出现使信息检索变得非常方便。但是,随着Internet以及随后出现的WWW技术的不断发展,导致网络所蕴涵的信息量急剧地膨胀。面对当前如

学位

对等网络本体搜索引擎JXTAJena

基于HART协议和XML技术的扩展有限状态机的C代码实现

有限状态机用于对系统的动态行为建模，一般用状态图来可视化表示，是对反应式系统建模的一种强大工具。但是长期以来状态图仅仅作为软件设计过程中的动态视图，并没有作为一种开发

学位

HART协议有限状态机程序生成器可扩展标记语言XML构架构件

通用性教学评价系统的研究与实现

随着计算机技术和Internet的发展，基于网络的教学评价系统得到了长足的发展和应用。但是目前基于网络的教学评价系统采用的教学评价模型简单且已固化，不可替换，不仅维护性差，而且

学位

教学评价发展性教师评价XML技术关系数据库

端到端性能测试系统的设计与实现

近年来，Internet技术的快速发展，使得各种网络产品和网络服务层出不穷，网络用户数量和网络流量也越来越大，网络性能已经成为十分重要的问题。网络性能评价和测量技术也就变得越来

学位

网络性能性能测试系统TTCN-3测试结构

SOA技术的研究及其在飞行器协同设计中的应用

飞行器设计是一个由多门学科协同进行设计的过程。一方面各学科所涉及的知识领域不同，开发语言等编程习惯也不尽相同，各学科所开发的应用系统通常建立在不同的运行环境中，采用不

学位

面向服务架构服务数据对象企业服务总线飞行器协同设计数据集成功能集成

花曲柳窄吉丁的空间分布

2004年4月～9月,在天津市大港区官港森林公园对花曲柳窄吉丁Agrilas planipennis的空间分布和垂直分布进行了调查研究,应用扩散系数(C)等6种指数法分析测定,确定了该虫在林地中

期刊

花曲柳窄吉丁空间分布垂直分布

面向分类型数据的模糊聚类算法研究

随着信息技术在工业界的迅猛发展，数据的规模与人们获取的数据也与日俱增，对这些海量数据的处理已成为近来年备受关注的问题。数据挖掘作为一种通用的知识发现技术，是在海量数据

学位

分类数据模糊聚类中心选择遗传算法动态调整

分布式应用系统软件体系结构的研究与实践

一个系统的软件架构的建立包括业务模型架构和支撑环境架构两方面。分层架构强调基于层次化组件构建应用系统，本文结合中央电大教务管理系统的业务需求，按照分层架构的原则，介绍

学位

分布式应用系统分层体系结构软件工程J2EE轻量级架构

分布式WEB文档全文索引关键技术研究

随着计算机应用领域的不断扩大,数据的规模越来越大,查询也越来越复杂,分布式索引以其高性能的特点而逐渐成为解决这类复杂问题的有效手段。由于Web数据具有海量的特征,对索

学位

全文索引文档预处理索引创建增量更新分布式索引

水下传感器网络基于能量和链路质量的路径选择研究

水下无线传感器网络是由一系列具有声学通信能力和计算能力的传感器节点构成的水下检测网络系统,在海洋资源勘测,水污染检测、海洋地震监控、战术监视等领域都有着广泛的应用

学位

水下传感器网络路由选择剩余能量链路质量预测Aqua-Sim

搜索引擎智能化技术的研究与实现

其他学术论文