垂直搜索引擎系统的研究

来源 :武汉理工大学 | 被引量 : 6次 | 上传用户:yzoryanzii
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网信息资源的快速膨胀推动了搜索引擎技术的蓬勃发展,作为一种网上信息检索工具,搜索引擎能够帮助用户从杂乱的信息中抽出一条清晰地检索路径,快速准确的定位到所需信息。与此同时,通用搜索引擎也有很多不可避免的缺点,比如,很难收集全所有主题的网页信息,而且即使能够全面收集,也会因为主题范围太宽,很难将各个主题做到精确,导致了检索结果中的垃圾太多,查询不准确。垂直搜索引擎系统就是为了解决这些问题而出现的一种新型服务模式,其主要针对某一特定领域提供有价值的相关信息,它面向专业领域,专注于专业知识,保证了对信息更新的及时性,极大程度的提高了检索的“查全率”和“查准率”。本文首先分析了垂直搜索引擎,对其进行了框架设计,分别介绍了开源网络蜘蛛Heritrix和开源全文检索引擎Lucene的特点,并描述了垂直搜索引擎系统的三个评估指标:功能、性能、搜索效果,其中搜索效果是通过查全率和查准率评估的。接着,本文详细讨论了网页抓取模块、网页预处理与索引模块、用户检索模块的实现细节,并针对笔记本电脑产品实现了一个垂直搜索引擎原型系统。在网页抓取模块这一章中,研究了宽度优先和质量优先抓取策略,讨论了网页抓取模块的工作流程,以及Heritrix的关键组件,并扩展了Heritrix的相关组件实现了个性化的抓取逻辑,完成了笔记本电脑原始网页的搜集;在网页预处理与索引模块这一章中,研究了中英文分词技术、网页预处理的过程、倒排索引的建立方法和压缩算法,其中倒排索引的建立和压缩方法是重点,并利用Lucene的分词和索引接口,结合MySQL数据库建立了倒排索引;在用户检索模块这一章中,研究了向量空间模型和PageRank模型这两种相关度排序技术的算法思想和实现原理,讨论了多Field检索、多索引检索和检索过滤器的实现方法,并在深入学习Lucene检索工具包的基础上完成了用户检索接口,能够满足用户的基本需求。最后,本文提出下一步的研究工作应该将本体技术引入到垂直搜索引擎领域,使其能够实现更加深入的内容理解和信息挖掘。
其他文献
随着多媒体技术和网络技术的迅速发展,保护数字作品的版权成为当今学术界研究的一个热点话题。数字水印作为信息隐藏技术的重要研究方向,它在数字图像等多媒体版权保护方面具
作为数据挖掘技术的研究前沿,数据流具有实时连续、高速到达以及动态变化等特点,在如无线传感器网络、金融分析市场、网络入侵检测等众多领域都扮演着十分重要的角色。聚类分
对等(P2P)计算是未来网络中的关键技术,对等网络是实现下一代互联网的重要组成部分。如何高效地搜索P2P网络上的资源是P2P网络实现的最为关键的问题。非结构化P2P网络的高动
从计算机诞生至今,其应用已经遍布人类生活的方方面面,从原始的科学计算到如今的日常娱乐都有计算机的影子。计算机的发展加速了不同学科交流融合,如今数学、物理、生物、医
示温漆温度测量与传统的测温方法相比,具有非接触性、经济性、高效性等优点,该测温方法在制造装备业、电子信息业、航空航天等领域都起到了重要作用。   对示温漆图像进行有
学位
随着计算机技术和自动化技术突飞猛进的发展,测试技术领域产生了巨大的变化。传统的独立或局部控制的仪器系统变得越来越不适应,于是出现了基于网络技术的LXI总线标准。LXI是
随着计算机信息技术的迅猛发展,现代服务业在人们生活中的地位日益突出,服务质量也逐渐成为人们关注的焦点,企业之间的竞争也已经转变为服务质量的竞争。这就需要企业时刻关
由大量随机部署于监测区域的传感器节点通过无线自组织所形成的网络能够协作地完成各种监测任务,如:战场信息收集、有毒气体监测、煤矿安全监测、海洋生态监控等,这些环境十
电子病历是医疗机构对门诊、住院患者(或保健对象)临床诊疗和指导干预的、数字化的医疗服务工作记录,是居民个人在医疗机构历次就诊过程中被完整记录的、详细的临床信息资源
自然场景仿真是计算机图形学的一个重要研究领域,植物是自然场景中的重要组成部分,在虚拟现实、计算机动画、三维视频游戏、数字娱乐、影视特效、军事仿真等方面有着重要应用