一种专题式搜索引擎Spider的设计与实现

来源 :北京化工大学 | 被引量 : 1次 | 上传用户:daizhenzeze
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网(Internet)的高速发展,人们的信息来源得到了极大的丰富,信息获取方式也随之而改变。这为人类带来机遇的同时也带来了挑战。在Web信息呈现几何级数增长的情况下,如何能够快速而准确地获取所需信息成为研究的热点之一。专题式搜索引擎(或专业搜索引擎)就是在这样的背景下孕育而生。搜索引擎包含多个模块,其中网络蜘蛛Spider主要负责为搜索引擎提供数据来源。作为专业搜索引擎的Spider程序,对所处理的页面与专业的相关性有特殊要求。本论文从专业搜索引擎的特殊要求出发,提出以下创新点:(1)借鉴操作系统中CPU时间片轮换策略的思想,提出站点深度优先搜索模型,对同站点页面进行集中抓取;(2)提出页面和站点加权算法,以权值的形式表征页面、站点与专业的相关性,使Spider对相关度高的站点重点抓取;(3)提出二维矢量工作队列数据结构,保证站点深度优先搜索以及权值对站点处理时间的影响。最后,使用化工专业词库,通过实验对系统进行测试和运行,验证系统的可行性,并对实验的结果进行进一步的分析。讨论了本专用搜索引擎Spider程序向通用搜索引擎Spider的转换。
其他文献
随着Internet的迅猛发展,文本信息的数量也日益增加,文本信息的自动处理也变得越来越重要。文本分类作为自然语言处理的一个基本问题,是文本信息处理中的一项主要技术,受到文
写作是大规模语言考试中用于衡量应试者语言知识和词语组织能力的重要途径,然而基于人工评分的方法存在以下缺点:一是耗费巨大的人力、物力、财力。二是评分的主观性强、误差
基于MVC设计模式的J2EE软件开发正成为当今软件开发的一个热点,本课题中物流实训系统的设计和实现正依赖于MVC设计模式,并最终以Browser/Server结构形式实现。传统J2EE架构使
随着信息智能化进程不断推进,人工智能已经广泛应用于各个方面。尤其在医疗诊断领域,越来越多的生理指标和疾病类型,加大了医生诊断疾病的难度,为了解决这个问题,许多研究学
随着当今社会信息化程度的不断提高,企业应用往往需要从大量异构、分布、自治的多数据源中提取数据,如何屏蔽底层异构数据源,将异构数据映射为统一的数据模型,以及如何快捷有
伴随无线通信技术的快速发展,人们希望能够通过无线方式接入互联网络,最近几年,越来越多的人群开始在日常的工作和生活中使用PDA等移动手持设备。对于企业用户来说,手持设备
本文针对阶段性事件驱动架构(SEDA),设计出一套自适应性能控制机制。过去几年因特网爆炸性的增长引起了大量新的网络服务在全世界范围内快速普及,网络服务已经成为一种重要的
随着互联网的蓬勃发展,互联网越来越成为民众表达自己利益诉求、发泄自己情感以及跟其他民众进行思维讨论碰撞的一个新平台。但由于网民素质参差不齐,热点事件到底是确有其事
计算机软件的普遍应用带给人们越来越多的便捷,并日益影响人们的日常生活,但计算机软件中存在大量的错误及漏洞,隐藏着巨大的风险。因此,无论是科研机构还是企业,都在努力研
VoIP是下一代网络中一个极其重要的应用,作为构建VoIP电话系统信令协议之一的SIP协议,以其突出的简单、灵活、分布式控制和易于扩展等优点赢得了业界的青睐,尤其是在3G即决定