论文部分内容阅读
随着科学技术和网络通讯的发展,特别是Internet的应用和普及,电子信息资源呈现出爆炸式增长趋势,数据量已从GB级到TB级,再到PB级。海量数据在给人们获取信息带来便捷的同时,存在着大量重复的现象。由于信息来源的多样性,以及对不同用户群体的针对性,使得相同信息可能以多种形态在不同页面出现,导致互联网上存在大量重复信息。这些重复网页的存在,严重影响了用户上网的体验,增加了互联网的成本,所以网页消重成为一个亟待解决的问题。目前的消重技术主要集中于针对以PC为终端访问的Web页面,对于面向手机等移动终端的WAP (Wireless Application Protocol,无线应用协议)页面的消重技术鲜有涉及。然而,近年来随着移动互联网的迅速发展,手机等移动设备迅速普及,手机WAP页面海量增长,对WAP页面进行消重变得尤为迫切。本文针对WAP页面的特点以及WAP页面消重的特定需求,提出了面向不同类别的WAP网页的特征提取方法,然后,将其与SimHash算法结合,从而得到面向WAP页面的消重方法,并且将其应用到真实数据中。本文的主要贡献如下:1.提出了一种面向WAP页面的特征提取方法,包含两个步骤:一是对WAP页面进行特征提取,二是针对不同类别的WAP页面利用基于视觉的网页结构分割算法(VIPS)识别的行信息对特征进行过滤。该方法既能反映不同类别页面重复方式的差异,又能充分考虑语义信息,提取的特征粒度大小适中,计算复杂度低且具有代表性;2.提出了一个面向WAP页面的消重方法,该方法集成了前面提出的特征提取方法和网页相似度计算的SimHash算法。于此同时,本文设计了消重效果的评价准则,从而指导页面间相似度的阈值设定,有效去除WAP中重复页面;3.本文将提出的WAP页面消重方法应用到真实的数据集上,在数据集上取得了优异的性能,同时也验证了本文提出的特征提取算法及整个消重方法的有效性。