基于Web的垂直搜索引擎的研究

来源 :武汉理工大学 | 被引量 : 0次 | 上传用户:wenzhiqiang963
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现代网络的飞速发展,网上的信息量在以惊人的速度飞快的增长,人们对搜索引擎的要求不断地提高,为了找到一种更满足人们需求的搜索引擎,垂直搜索引擎就在发展中产生了。垂直搜索引擎服务于特定行业、特定人群,具体问题具体分析,解决了通用搜索引擎的一些不足之处,比以往的通用搜索引擎更占有优势。随着信息产业化的发展,面向专业方向的搜索需求也越来越多,现在,实现某个专门方向的垂直搜索引擎系统成为搜索引擎的的热点问题之一本文在深入研究垂直搜索引擎的关键技术的基础上,分析并设计专业网络蜘蛛、索引、检索的流程,采用了专业网络蜘蛛的搜索策略,实现了信息的采集、索引和查询,构建了垂直搜索引擎系统。本文主要研究内容如下:(1)专业网络蜘蛛:在分析专业网络蜘蛛的相关技术上,设计了专业网络蜘蛛的搜索策略和流程,研究了基于网页内容和链接结构的两种搜索策略,并采用了将两种搜索策略结合的搜索策略,对系统的核心部分网络蜘蛛进行设计与实现。(2)索引和中文分词:本文对索引和中文分词的算法进行了研究与设计,采用最大化分词策略的中文分词算法,并对分词后的信息建立索引,采用倒排索引形式将索引数据组织存放到数据库,实现信息数据的索引。(3)信息检索技术:本文对检索的框架结构进行了研究,采用相似度匹配的算法对查询出的网页信息进行排序,用户通过检索接口查询关键字,将排序后的结果通过接口输出,并显示给用户。(4)系统设计与实现:通过对搜索引擎关键技术的探讨与研究,对垂直搜索引擎各个模块进行了分析与设计,设计了专门的信息采集模块,索引模块,信息查询模块,实现了一个垂直搜索引擎系统。本文所设计的系统为具有专业化、个性化的特点,并满足用户信息检索要求。最后,对垂直搜索引擎的相关技术的实现进行总结,对技术不够成熟的地方和有待进一步优化的地方进行了展望,提出了以后的大致的研究方向和目标,一步一步的完善系统,使得垂直搜索的服务水平更加专业化。
其他文献
随着多媒体通信技术的发展,多媒体技术和计算机有效地结合了起来,多媒体远程培训逐渐成为了一种流行的学习和培训方式。由于中国在世界经济的舞台中逐渐扮演者越来越重要的角
磁共振成像(Magnetic Resonance Imaging,MRI)作为医学影像的一个重要部分,具有无辐射、多平面成像、扫描参数多、提供病理生理信息多、软组织对比分辨率高等优点,已成为临床
众所周知,认知无线电技术的提出与研究对于无线通信业务发展的影响巨大而深远。随着时代步伐的不断前进,无线通信业务同样得到迅猛发展,然而有限的频谱资源所存在的紧缺与固
随着第三代移动通信的商用,室内用户对多媒体业务和高速数据业务的需求迅速增长,逐渐成为主流和趋势。TD-SCDMA是我国自主研发的第三代移动通信标准,由于业务大部分都是发生
随着信息和通信行业日新月异的发展,数字内容的编辑、复制和分发日趋普遍,由此滋生的盗版侵权问题极大的冲击着版权保护产业,但凡涉及数字内容的任何服务领域就需要数字版权
由于现有的IP城域网设计部署主要是为了满足基本的业务需求,对QoS、MPLS VPN.网络安全等方而的研究仍有不足,还不能满足业务差异化识别和区分优先级承载。目前从电信运营商的
进入21世纪,伴随着计算机、互联网、通信技术以及其他相关领域的飞速发展,人脸表情识别已经成为一个研究热点。其可以应用于很多领域诸如安全驾驶,远程教育,数字家庭,辅助医
会话的移动性是近几年来倍受关注的研究课题,目前解决会话移动性问题的方法很多,但都存在一定的不足,如未考虑会话的自适应性,互操作性差,灵活性不足等,与此同时,还很少有考
压缩传感(Compressive Sensing, CS)理论以子奈奎斯特(sub-Nyquist)采样率为图像重构提供了一种崭新的框架,其核心思想是:如果信号在某一线性变换域中是稀疏的,进行sub-Nyquis