主题爬虫的设计与实现

来源 :北京邮电大学 | 被引量 : 14次 | 上传用户:pploa
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络信息资源的急速增长,如何能够快速准确的在数量巨大的网络资源中获取需要的信息是网络研究的一个热点。通用搜索引擎提供的是一种粗略的检索服务,已越来越不能满足人们个性化、专业化的搜索需求。主题搜索引擎只搜索与特定主题相关的网络资源,能为用户提供更加快速、更加准确的检索服务,因而成为现代信息检索的一种趋势。网络爬虫是搜索引擎获取网络数据的重要工具,搜索引擎利用网络爬虫在网络上自动的获取网络资源,然后对所获取的资源建立索引,以供网络用户进行信息检索。论文首先介绍了通用网络爬虫的模型、原理和不足,进而介绍了聚焦爬虫的原理及其架构,详细分析了主题爬虫的关键技术,即主题搜索策略和主题相关性的计算。通过对主题爬虫原理的分析,设计了并行架构的主题爬虫系统;指出了基于内容评价搜索策略的Shark-Search算法和链接结构评价的搜索策略HITS算法的不足,设计了结合Shark—Search算法和HITS算法的搜索策略作为主题爬虫的搜索策略。已有的主题爬虫需要大量已标记的训练样本来进行离线训练,无法在爬行过程中对新的知识进行增量学习,不能很好的利用已经下载的和主题相关的网页,因而很难符合当今Web资源采集的需求。对新下载的页面在线学习可提高页面下载精度,有利于加速主题爬行过程。本文通过对增量朴素贝叶斯分类算法的研究,将增量贝叶斯分类器应用于主题爬虫主题相关度的计算中。最后采用C++语言在Linux环境下对主题爬虫进行了实现。实验结果表明,爬虫系统性能良好,可以准确的进行主题信息的自动爬取。
其他文献
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技
近年来,随着电信网、计算机网和因特网的快速发展,建立高速度、大容量的信息传输系统势在必行。以光波为载体、光纤为传输媒质的光纤通信具有容量大、传输距离远、功耗低、抗
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技
随着城市的建设和发展,新建公园合理保护利用原有植物资源,对城市生态具有重要意义。香蜜公园建园前对场地原有植物资源进行普查,建立详细图文数据档案;建设中通过专项规划设
本论文的研究工作是围绕以下项目展开的:新型光电子器件中的异质兼容集成与功能微结构体系基础研究(国家973计划项目,编号2010CB327600)、国家自然科学基金(编号6102010600和6
随着互联网的发展,OA协同办公得到了飞速的发展;而近几年来移动互联网的发展,使得移动办公越来越普及。移动办公是实现企业办公信息化的全新方式,通过使用移动终端,人们可以不
<正>各位作者朋友,《蔬菜》杂志郑重声明,投稿请发送至编辑部远程投稿系统,网址:http://www.veg.ac.cn,这是《蔬菜》杂志唯一官方合法投稿网站,其他任何网站都非合法投稿地址