简单高效的URL消重的方法 - 论文文献免费下载 - 搜论网

简单高效的URL消重的方法

来源 :计算机应用 | 被引量 : 10次 | 上传用户：logepark

【摘要】

：

在Web信息采集的过程中,为了避免对同一页面的重复下载,需要对URL进行消重。当URL数量变得非常庞大时,URL编码、计算和存储将会给网页消重性能造成很大的影响。通过对URL网址的观察和工程实践,提出一种简单高效的K-PickHash算法,能够快速对绝大多数的URL生成唯一编码,同时保证较低的碰撞率。实验结果证明,计算相同数量的URL时,K-PickHfIp算法所占用的时间小于信息—摘要算法(MD

【作者】

：

龚秋艳陈良育曾振柄

【机构】

：

华东师范大学软件学院

【出处】

：

计算机应用

【发表日期】

：

2010年S1期

【关键词】

：

URL消重 K—PickHash MD5 filtering URL K-PiekHash Message-Digest algorithm 5 （MD5）

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

在Web信息采集的过程中,为了避免对同一页面的重复下载,需要对URL进行消重。当URL数量变得非常庞大时,URL编码、计算和存储将会给网页消重性能造成很大的影响。通过对URL网址的观察和工程实践,提出一种简单高效的K-PickHash算法,能够快速对绝大多数的URL生成唯一编码,同时保证较低的碰撞率。实验结果证明,计算相同数量的URL时,K-PickHfIp算法所占用的时间小于信息—摘要算法(MD5)的1/3,内存使用比MD5节省1/3,碰撞率也控制在可接受的范围。

其他文献

环境不确定性对银行经营的作用机理研究

基于我国74家商业银行2011-2013年222个观测值,运用层次回归方法检验了环境不确定性、资本结构对银行经营的影响。结果表明：环境动态性、复杂性均显著正向影响银行绩效,资本结

期刊

环境不确定性动态性复杂性资本结构银行绩效Environmental uncertainty dynamics complexity capital s

探析提高电气自动化控制设备可靠性的方法

随着电子自动化控制的逐渐深入,人们已经越来越重视电气自动化控制设备的可靠性。因此,笔者以电气自动化控制设备的可靠性作为基础,针对电气自动化可靠性目前的现状提出了相

期刊

电气自动化设备可靠性

浅议如何做好特大火灾事故调查

随着我国经济不断增长,城市的人口也越来越多,特大火灾事故发生的发生也在不断增加.在2006年全国的特大火灾事故就发生了222起,导致357人死亡,造成经济损失18522.9万元。一个

期刊

特大火灾事故调查

放疗配合榄香烯乳治疗25例鼻咽癌临床观察

期刊

鼻咽癌放射疗法榄香烯乳化疗

基于虚拟仪器的电主轴性能测试平台的研制

电主轴是数控机床三大高新技术之一,作为数控机床核心功能部件,其国产化对我国数控机床发展有着十分重要的意义。本文介绍了电主轴主要性能参数指标,并设计基于虚拟仪器的电

期刊

电主轴虚拟仪器LABVIEW运动控制Motorized Spindle Virtual Instrument LabVIEW Motion Con

其他学术论文