论文部分内容阅读
网页是一种易逝的信息资源,在新网页不断涌现的同时旧网页也在逐步消失。如果没有专门的机构来对网页进行收集和保存,它们就会在不经意之间消失。而随着互联网成为一种不可忽视的新媒体,网页内容的重要性已经不言而喻。因此,持续收藏并永久保存出现过的网页具有重要的意义,可以为后人提供珍贵的历史资料。显然,人们还希望能够以一种比较方便的方式来再访问这些保存下来的海量网页,从而才能体现出这种收藏的价值。这里所说的“再访问”可以有多方面的含义,包括根据URL和链接关系来浏览历史网页,像搜索引擎那样查询相关网页,等等。
不难想到,这项工作可以大致分成两个部分,一是有计划地进行网页的持续搜集,二是将搜集到的网页适当地组织起来,以便再访问。本文的工作属于后者。即我们假定有一个搜集系统源源不断地将网页搜集下来,我们需要对它们进行有效地组织和存储,并提供对它们有意义的访问方式。
针对这种需求,本文确定了四个关键技术问题,对它们分别进行了深入的研究,并基于研究的成果设计并实现了两个系统。本文的主要贡献包括:
1)提出了一种带有时间标签的链接图的存储及压缩方法。链接图是表达网页之间关系的一种重要数据结构,它是链接分析技术的基础,广泛应用于Web数据的分析、挖掘、检索领域。通常,链接图上是没有时间信息的。而由于本文工作所针对的是长时间持续搜集的历史网页,对应同一个URL的网页的不同版本会在不同时间被搜集下来,于是网页的链接关系会随着时间发生改变,因而就形成了带有时间标签的链接图。本文研究了带有时间标签的链接图新型表示模型,详细设计了存储格式和压缩方法。这方面的研究成果的有效性在我们所收藏的24亿历史网页集合上得到验证,从该集合我们构造了一个包含有1546亿条带有时间标签链接的链接图系统,并得到一些初步应用。
2)提出了一种从杂乱无章的网页集合中筛选出文章型网页的方法。我们称新闻报道、分析评论、论坛帖子、博客日记等由人创作完成的作品,具有标题以及一段逻辑上连续的正文,为网络文章。文章型网页指的是包含网络文章的网页。直觉上,它们具有较高的挖掘和检索价值。本文提出的方法基于对文章一般性规律的认识,具有通用性和较好的效果。简要地说,首先从网页内容中提取出标题,然后从标题位置后面的文字内容中提取出正文来。实验表明精度和召回率都很高。根据这一方法(但在大规模数据条件下因个别技术难点没有完整实现),本文从24亿网页中提取出了约4.3亿篇网络文章。
3)提出了一种新型的相似网页检测算法,同时具备高准确率与高覆盖率的优点。该算法采用基于LCS(longestcommonsubscquence)的相似性度量方法,设计了一个包含了三个步骤的检测过程框架,保证了算法的效率。综合实验表明本文的算法同时获得了高准确率与高覆盖率。该算法成功应用于上述网络文章的消重,将4.3亿文章型网页分割为0.68亿个相似网页子集(即得到0.68亿篇不同的网络文章),整个过程使用6台Linux服务器仅花费了5天的时间。
4)提出了一种网络文章发表时间的估计方法。发表时间是文章的一个重要属性。比较容易想到的方法是通过从网页文字内容中提取出来的时间、网页的Last-Modified-Time和网页搜集时间这三种信息来推断文章发表时间。然而其效果并不足够理想。因而在此之上本文进一步提出了利用链接分析和检测相同文章的方法来提高计算精度。综合实验表明,前者可以提高约35%的计算精度,而后者的作用更加显著,如果能够检测到文章的多个其它拷贝,则有很大的概率计算出来的文章发表时间是准确的。
5)设计并实现了一个大规模历史网页仓储系统,并提供历史网页回放服务,称为WebInfomall(http://www.infomall.cn)。它用于存储搜集系统持续不断搜集来的历史网页,用户可以在上面使用URL来获取和浏览历史网页。可扩展和增量存储是本系统的两个重要特性。对此,本文设计了相应的存储组织结构和索引结构,它们经历了海量网页数据的考验并具备较好的性能。到目前为止,已经收藏了近六年来在中国互联网上出现过的近30亿网页,压缩以后的数据量超过20TB。此外,本文还设计了一种适合网页长期保存的存储格式。
6)在上述研究成果的基础上,设计并初步实现了一种面向历史事件报道踪迹的搜索引擎系统,称为HisTrace(http://hist.infomall.cn)。它用于检索在历史网页中所记录、描述的历史事件对象,并按时间的顺序将它们展现出来。当前系统建立在一个规模为24亿的历史网页集上,采用前面所描述的方法和技术,从中提取出4.3亿篇文章,在消重之后得到0.68亿篇不同的文章,并为每篇文章计算出它的最早发表时间。然后,为这些文章的标题建立了索引,当用户输入历史事件的关键词时,系统返回与它关联的所有文章(网页),并按发表时间的顺序排列出来。