基于文档分类及超链接优选策略主题蜘蛛的研究与实现

来源 :西南交通大学 | 被引量 : 0次 | 上传用户：ll6960071

【摘要】

：

随着Internet的迅速发展,网络信息增长的速度与人们获取所需信息能力之间的矛盾越来越突出。搜索引擎这一新兴技术也越来越体现出其自身的重要价值。作为搜索引擎的数据后勤

【作者】

：

尹江

【机构】

：

西南交通大学

【出处】

：

西南交通大学

【发表日期】

：

2008年期

【关键词】

：

搜索引擎网络蜘蛛主题爬行文本分类

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着Internet的迅速发展,网络信息增长的速度与人们获取所需信息能力之间的矛盾越来越突出。搜索引擎这一新兴技术也越来越体现出其自身的重要价值。作为搜索引擎的数据后勤保障,网络蜘蛛的发展也越来越迅速。论文从研究互联网络上信息的分布特征入手,对“主题网络蜘蛛”这一新型的网络蜘蛛原理、策略、结构、工作模式、调度机制以及实现上进行了深入的分析研究。论文设计了一个主题网络蜘蛛系统——Focus CrawlingSpider,在Windows环境下采用C++实现了该系统。在Focus Crawling Spider系统的页面主题相关性判定策略中引入了文档自动分类的思想,提出了基于简单向量距离法、KNN算法以及朴素贝叶斯算法综合对页面进行主题相关性判定的页面相关性的方法;同时在URL剪枝部分,论文提出了将“侵入式鱼群算法(Invasive Fish Search,IFS)”应用于Focus Crawling Spider系统,增强了该系统穿越“隧道”的能力,增加了该系统的爬行覆盖率。论文对Focus Crawling Spider系统的各个功能模块的设计与实现都进行了详细的论述,包括大量的效率瓶颈的分析以及解决方案。在系统结构、页面采集、URL(Uniform Resource Locator,URL)管理、URL评价、DNS(DomainName Server,DNS)缓存系统、DOM(Document Object Model,DOM)结构生成、HTML(Hypertext Markup Language,HTML)解析等方面都提出并实现了一些创新点。论文从运行效率和爬行策略的改进效果等方面对Focus Crawling Spider系统进行了运行测试。通过对测试数据的分析比较,得到了较好的结果。

其他文献

基于双时态XML数据技术研究

XML的全称是Extensible Markup Language(可扩展标识语言)。XML是标准的通用标记语言，它的半结构化特性、良好的可扩展性、自描述等特性使它正迅速成为一种与技术无关的数据交

学位

可扩展标识语言数据存储查询技术双时态数据交换

基于机器学习的错误定位方法研究

错误定位是整个软件调试过程中最耗时最困难的部分,错误定位过程中的任何改进都可以大大降低软件成本。传统的错误定位方法一般是利用开发工具手动地设置断点,不但耗费精力,

学位

错误定位机器学习软件调试径向基神经网络基因表达式编程因果关系

SIP协议部署在NAT/防火墙环境下的安全性研究

基于IP的语音技术(Voice over IP,VoIP)是随着20世纪90年代以来开始的Internet商业化革命和网络融合技术发展起来的一门新兴的通信技术。由于其和传统的PSTN电信网相比,具有

学位

VoIPSIP安全NAT防火墙

基于L系统的公钥密码体制的密钥生成和存储技术研究

L系统是由瑞典理论生物学家、植物学家Aristid Lindenmayer提出的一种形式语言文法，具有并行重写的特点。1986年，Salomaa等人通过对L系统的研究，提出了基于L系统的公钥密码体制

学位

同态迭代L系统公钥密码体制前缀码密钥生成密钥存储

车牌识别系统的设计与开发

车牌识别是智能交通系统(ITS)的重要组成部分，本文以汽车牌照自动识别技术作为研究背景，以静态车辆图像为主要对象，深入研究了计算机图像处理、人工智能、模式识别等背景知识，探

学位

车牌识别智能交通系统图像处理神经网络

基于SPV逻辑的电子商务协议形式化分析与研究

随着计算机网络和电子商务的普及，网络安全问题越来越受到重视，而电子商务协议就是解决电子商务中网络安全问题的有效手段之一。虽然电子商务协议使用密码系统来确保其安全性，但

学位

电子商务协议网络安全SPV逻辑SET协议公平非否认性协议

电力系统实时数据平台中任务调度的设计和实现

本文提出的任务调度算法是针对实时数据平台中传统任务调度存在的负载不均衡及任务实时性差等问题给出的解决方案。在查阅了大量的国内外文献的基础上,对实时调度及负载均衡

学位

实时任务调度负载平衡截止期错失率负载率

便携式脑电系统的睡眠自动分期方法研究

人的一生中大约有1/3的时间是在睡眠中度过,睡眠质量的好坏与人类的身心健康和工作生活有着极为密切的关系。睡眠过程会经历几个相对稳定的睡眠状态,医学上称之为睡眠分期,而

学位

单通道睡眠脑电睡眠自动分期归一化CEEMDAN

基于文档分类及超链接优选策略主题蜘蛛的研究与实现

其他学术论文