【摘 要】
:
在Internet高速发展的今天,网页数量急剧的增长,给信息采集的硬件带来极大的压力,与此同时,搜索引擎中网络爬虫的“密集”抓取活动会阻碍普通用户通过浏览器的正常访问。网络
论文部分内容阅读
在Internet高速发展的今天,网页数量急剧的增长,给信息采集的硬件带来极大的压力,与此同时,搜索引擎中网络爬虫的“密集”抓取活动会阻碍普通用户通过浏览器的正常访问。网络信息的采集策略对如何充分有效地利用Web信息源是至关重要的,有必要根据网页自身更新的频度来动态地调整搜索引擎采集的频率。一方面可以有针对性的采集,网页变化频率加快时可以增加采集次数,网页变化频率放慢时可以减少采集次数;另一方面减少因网站集中于某时间点采集给硬件所带来的压力。本文分析了网络爬虫原理及增量采集技术的特点,然后进一步研究了网页的变化规律,介绍了相关行业数据采集方面的自适调节周期算法。针对目前网页变化频率阈值的确定仍然存在较大主观性的情况,本文提出了四分位法,该方法是在采集过程中记录下最近N次数据,利用四分位数自动确定该阈值。本研究中所应用网络信息动态采集策略是,结合网站(或频道)的自身特点,以增量信息采集技术为基础取得采集周期内的网页变化,然后与四分位法所确定的网页变化频率阈值进行比较,当网页的变化频率超出该阈值时,相应的调节采集周期,从而实现网络信息动态采集的目的。另外,还结合本课题组动态采集算法进行了进一步改进研究。实验表明本文所提出的动态采集算法是可行的,有一定的借鉴价值。在与课题组动态采集算法的比较实验中平均动态采集算法时新性较好。本论文研究有助于更加充分有效地利用Web上的信息资源,同时减小了信息采集对硬件的要求。
其他文献
入侵检测技术是一种积极主动的安全防护技术,它可以弥补传统安全保护机制的许多不足。然而随着入侵手段的多样化,传统的入侵检测技术已无法满足当前网络安全的需要,将智能技
随着大数据时代的来临,数据信息量规模大且增长速度快,数据本身表现出多种特征。从海量的数据中提取有价值的知识和信息越来越困难,同时对多源信息系统的处理和数据分布式存
简单,快捷,有效地软件开发工作一直是企业信息管理系统研究人员和开发人员所重视的内容。然而,随着企业业务的横向扩展,企业的信息系统开发规模将会越来越大,系统开发的效率
随着互联网的发展,网络成为人们表达自己意见和情感的重要平台,网络舆情的收集及分析已成为相关部门获取民众思想和建议的一个有效手段。作为网络上比较活跃、参与人数比较多
随着互联网的普及,各行各业对信息系统依赖度的不断增强,各政企对安全建设的极度重视,构建保障安全的基线成为不可或缺的一部分。本文主要研究针对证券、电信、移动等行业安
虹膜识别技术是一种以人体虹膜生理特征为依据的生物特征识别技术,与声音、脸像、掌纹、指纹等特征识别相比,虹膜具有稳定性、唯一性、非侵犯性、识别率高等优点,因此虹膜识
无线传感器网络作为一种以数据为中心的分布自组织网络,传感数据的收集往往是其最主要的任务。而传感器网络的节点通常被部署在环境相对恶劣、条件受限制的环境中,如何保证数
随着互联网的飞速发展,互联网上的数字信息量也开始呈指数型增长,人们要从信息海洋中获取自己需要的特定信息变得越来越困难。能帮助人们从海量信息中找到真正所需的搜索引擎
智能运输系统ITS是将人、车、路和谐地融为一体,代表了交通运输现代化的发展方向。交通流参数检测作为智能运输系统的一个重要研究方向,对高速公路监控、管理以及政策研究、
面向定制的校园综合信息服务系统能够满足高校学生和教师及管理员等各类角色对校园网络内各种各样的综合信息服务的需求。它提供了一个统一的登录平台,能够有效地对校园网用