分布式WEB信息检索技术研究

来源 :中国科学院计算技术研究所 | 被引量 : 0次 | 上传用户:zzzzzz1234566666
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
WEB信息的快速增长,给信息检索带来严峻的挑战.一方面大量的信息使得检索系统很难在极短的时间内(通常50毫秒)给大量的用户并发请求返回检索结果.另一方面返回的大量检索结果以列表方式呈现不够合理,用户需要花费较多的时间才能在其中找到自己需要的信息. 本文针对上面的两个问题开展了分布式WEB信息检索技术的研究.通过研究分布式信息检索中的集合划分问题、集合选择问题以及检索结果合并问题,能够在一定程度上解决海量信息检索面临的问题.本文尝试分别从文档空间和查询空间将整个文档集合划分成若干个子集合,检索时经过集合选择,选择那些最相关的子集进行检索,从而减少了需要查询的文档数量,减轻检索时的计算开销,使检索系统可以处理更大规模的文档,响应更多的用户并发请求.在检索结果合并中,通过采用检索结果聚类技术,把检索结果进行合理的聚类,使得用户可以快速的定位到自己需要的信息,检索结果聚类后每个类别都有类别标签,类别标签提示了类别中的文档内容,这些标签可以给用户很多的有价值的信息,也可以作为进一步查询的提示.●在文档集合的划分方面: 首先从文档空间和查询空间角度给出了三种文档集合划分方法:基于内容的文档集合划分方法、基于链接的文档集合划分方法和基于查询的文档集合划分方法.其中基于查询空间的文档集合划分是一种全新视角看待文档集合划分问题,基于链接的文档集合划分方法和基于查询空间的文档集合划分算法采用了本文提出的聚类算法LJBCA,在BloomFilter算法的帮助下,LJBCA算法具有极高的计算效率,线性的时间复杂度等极好的效率表现.其次针对文档集合的划分评价问题,本文从集合划分的问题出发,提出了两个文档集合划分评价模型,利用该模型可以求解出在给定查询相关文档集条件下的模型最优解,并给出了一种类哈夫曼编码的快速求解算法.利用两个评价模型对前面的多种文档集合划分方法进行了评价.●在集合选择方面: 对集合选择问题与文档检索问题进行了比较,同时将各种检索方法应用于集合选择问题中,通过实验比较发现:通常在文档检索中表现出较好性能的检索模型,在集合选择问题中也有比较好的表现;进一步,对语言模型在集合选择中的平滑进行了实验,实验结果表明平滑技术对模型的影响并没有在文档检索中所表现的那样明显,分析了产生这种现象的原因.●检索结果合并: 提出了一种层次化检索结果聚类算法,该算法利用多种特征融合的方法抽取类别标签,并由这些类别标签构成基础类别,通过定义的基础类别相关性构建基础类别关系图,再对基础类别关系图进行划分,提出了一种层次化检索结果聚类算法GBCA.在检索结果聚类的评价方面,首先通过编写的工具构建了自己的中文检索结果评价集合,利用此检索结果评价集合对我们的多特征融合的类别标签抽取算法和层次化检索结果聚类算法分别进行了评价,与著名的STC和最新的Snaket检索结果聚类方法相比较,我们的层次化检索结果聚类方法具有更好的聚类效果.最后我们采用本文提出的检索结果聚类方法构建了一个演示系统. 综上所述,通过开展本论文的工作,对于降低海量信息检索的计算开销,改善检索结果的组织与呈现方面具有重要意义.可以使信息检索系统能够为用户提供更快、更好的信息检索服务.
其他文献
Internet正从一个主要用于交换和共享信息的网络演变成为一个开放软件协同环境,未来许多应用系统的构建将依赖于Intetnet上海量的、自治的软件实体间的有效协同。如何针对此类
自上个世纪90年代初期开始,软件体系结构受到了学术界广泛的关注与重视,并被认为将会在未来的软件开发中起到重要的作用。随着软件体系结构研究的发展,体系结构模型中对系统行为
2003年3月-2004年12月,公司申获并完成了基于组件的嵌入式地理信息系统(国家863)项目,扩大了GIS的应用范围,与此同时,移动通讯设备,尤其是智能终端设备和GPS设备的迅速发展为GIS的
数字地震记录格式问题在理论上是一个简单的、而在实践上却是一个复杂的问题。数字地震记录开始于70年代初期,随着数字地震观测技术的不断发展,数据格式问题日益引起越来越多
Ad Hoc网络是一个没有任何中心实体的自组网络,它依靠节点间的相互协作自行成网,借助多跳转发技术来完成有限距离的传输。Ad Hoc网络具有组网灵活性、支持移动性、易于迅速展开
程序漏洞攻击威胁严重。随着计算机的广泛应用以及internet的深入发展,计算机软件的功能变得越来越强,程序代码量也惊人地增长,庞大的软件巨无霸将不可避免地包含软件漏洞。漏洞
微博(例如Twitter和新浪微博)作为一种发展迅猛的在线社会网络(Online SocialNetworks,OSN),已成为当前重要的互联网信息分享和内容推荐平台,并引领了一种完全不同于传统的“口耳
随着网络与人们生活的联系日益紧密,网络服务的质量越发引起运营商和普通用户的关注。网络测试是发现网络潜在故障、检查网络安全性、验证网络性能的有效手段。网络流量生成系
随着移动通信技术和设备的革新,以及移动互联业务应用需求的增加,移动通信网络中的用户对无线传输速率的要求也在不断提高,从而导致基站的覆盖范围越来越小,需要部署高密度的基站
在计算机技术日益普及的现代社会中,软件系统中流程比比皆是,形式覆盖程序流程、办公工作流、业务流程以及服务集成等。随着建设流程的组件数量的快速增长和流程逻辑复杂性的提