科技文献检索系统相关排序算法研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:liuyunxiaoyan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当前,互联网已经成为了人们获得信息的一个主要来源。而网页数量已经达到了百亿级,并且在以每日数百万网页的速度增长。由于其规模如此之庞大,用户在查询资料的时候,经常面对搜索引擎所返回的几百万甚至上千万网页,通常很难准确找到自己所需要的内容。因此,搜索引擎如何优化搜索的相关排序算法,如何在保证搜索速度和查全率的基础上,提高查准率,并且把最恰当的,最可信的链接放在返回结果的最前面就成为了互联网搜索的关键问题。 基于此,本论文的主要研究内容和创新点如下: 1.描述了搜索引擎和信息检索的概念,展示了当前的主流搜索引擎的系统架构,以及它们所使用的相关排序算法,随后对经典的信息检索相关排序算法模型进行了回顾。 2.提出了基于加权词频的信息检索相似度评价模型(WTFM)和基于改进链接分析的文献检索系统相关排序算法,并且完成了它们的实验仿真。其中,WTFM模型是在信息检索领域内相似度模型中概率模型基础上,对文献的各个域引入了加权系数,并利用模拟退火算法估计出一组最优组合;而改进链接分析技术则利用Obiect-Level PopRank思想,可以得到多种对象的排序结果(文献,作者,期刊出版物)。 3.由于本文的目的之一是建立一个学术文献搜索引擎,所以对搜索引擎中的网页收集模块和如何利用开源工具包Lemur tool kit也作了说明。实验证明,在某一特定领域内的检索系统当采用改进型的检索相关排序算法后,会提高检索系统的查准率性能并且带来更好的用户体验。最后,对检索系统的相关排序算法和未来的垂直搜索引擎作了展望。在实验小组共同的努力下,我们完成了一个能够检索大约70万篇学术文献的小型搜索引擎并且将研究内容应用其中。实验表明,此搜索引擎有较好的查准率和响应速度。
其他文献
人类认识世界、感知世界所需要的信息主要是通过视觉来实现的。计算机视觉是通过计算机及一些相关设备对摄取的视频图像进行分析和处理来实现对生物视觉的一种模拟。在科学和
自主分布式水声通信网络能够快速灵活地组网,在军事和商业中将发挥越来越重要的作用。本文首先讨论自主分布式水声通信网络分层协议栈中的关键技术,然后重点分析差错控制技术
随着社会的不断发展和进步,通信技术发展突飞猛进。宽带、高速通信已是发展的必然。这就要求系统具有良好的纠错性能,并充分利用有限的频谱资源。 信道编码是通信系统中的关
移动通信技术跨入3G后,随着数据流量的增加以及多媒体服务高带宽的需求,要求网络提供宽带无线接入能力。正交频分复用(OFDM)技术同无线局域网(WLAN)的结合大大提高了WLAN的传
粒子群算法是一种随机搜索算法。它借鉴了生物群落捕食的机理,简单通用、鲁棒性强、适合于并行处理,是一种有效的全局搜索方法,在多个方面得到了成功的应用。但粒子群算法也
机载数据总线技术作为现代飞机电传操作系统和航空电子综合化的核心技术,是衡量航空电子系统综合化程度高低的重要因素,决定着飞机的性能。近年来国内外国防建设重点发展航空、
随着近年来多媒体技术的飞速发展,许多应用领域对视频图像的实时压缩提出了更高的要求。在视频编码和处理系统中,运动估计和运动补偿技术对降低视频序列时间冗余度、提高编码
随着Intemet的高速发展,对多媒体通信技术地研究正如火如荼地展开。视频通信技术作为多媒体通信的核心内容,其QoS(Quanlity of Service)技术对于视频编码效率,传输鲁棒性以及解
无人侦察机作为一种先进的遥感数据获取方式,已在军事侦察、目标监视、毁伤效果评估、地图测绘、土地利用调查等诸多领域得到广泛应用,产生了巨大的经济、军事和社会效益,展