论文部分内容阅读
在Web信息采集的过程中,为了避免对同一页面的重复下载,需要对URL进行消重。当URL数量变得非常庞大时,URL编码、计算和存储将会给网页消重性能造成很大的影响。通过对URL网址的观察和工程实践,提出一种简单高效的K-PickHash算法,能够快速对绝大多数的URL生成唯一编码,同时保证较低的碰撞率。实验结果证明,计算相同数量的URL时,K-PickHfIp算法所占用的时间小于信息—摘要算法(MD5)的1/3,内存使用比MD5节省1/3,碰撞率也控制在可接受的范围。