历史网页的持续收藏及其再访问的关键技术研究

来源 :北京大学 | 被引量 : 0次 | 上传用户:ycs19900105
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
网页是一种易逝的信息资源,在新网页不断涌现的同时旧网页也在逐步消失。如果没有专门的机构来对网页进行收集和保存,它们就会在不经意之间消失。而随着互联网成为一种不可忽视的新媒体,网页内容的重要性已经不言而喻。因此,持续收藏并永久保存出现过的网页具有重要的意义,可以为后人提供珍贵的历史资料。显然,人们还希望能够以一种比较方便的方式来再访问这些保存下来的海量网页,从而才能体现出这种收藏的价值。这里所说的“再访问”可以有多方面的含义,包括根据URL和链接关系来浏览历史网页,像搜索引擎那样查询相关网页,等等。 不难想到,这项工作可以大致分成两个部分,一是有计划地进行网页的持续搜集,二是将搜集到的网页适当地组织起来,以便再访问。本文的工作属于后者。即我们假定有一个搜集系统源源不断地将网页搜集下来,我们需要对它们进行有效地组织和存储,并提供对它们有意义的访问方式。 针对这种需求,本文确定了四个关键技术问题,对它们分别进行了深入的研究,并基于研究的成果设计并实现了两个系统。本文的主要贡献包括: 1)提出了一种带有时间标签的链接图的存储及压缩方法。链接图是表达网页之间关系的一种重要数据结构,它是链接分析技术的基础,广泛应用于Web数据的分析、挖掘、检索领域。通常,链接图上是没有时间信息的。而由于本文工作所针对的是长时间持续搜集的历史网页,对应同一个URL的网页的不同版本会在不同时间被搜集下来,于是网页的链接关系会随着时间发生改变,因而就形成了带有时间标签的链接图。本文研究了带有时间标签的链接图新型表示模型,详细设计了存储格式和压缩方法。这方面的研究成果的有效性在我们所收藏的24亿历史网页集合上得到验证,从该集合我们构造了一个包含有1546亿条带有时间标签链接的链接图系统,并得到一些初步应用。 2)提出了一种从杂乱无章的网页集合中筛选出文章型网页的方法。我们称新闻报道、分析评论、论坛帖子、博客日记等由人创作完成的作品,具有标题以及一段逻辑上连续的正文,为网络文章。文章型网页指的是包含网络文章的网页。直觉上,它们具有较高的挖掘和检索价值。本文提出的方法基于对文章一般性规律的认识,具有通用性和较好的效果。简要地说,首先从网页内容中提取出标题,然后从标题位置后面的文字内容中提取出正文来。实验表明精度和召回率都很高。根据这一方法(但在大规模数据条件下因个别技术难点没有完整实现),本文从24亿网页中提取出了约4.3亿篇网络文章。 3)提出了一种新型的相似网页检测算法,同时具备高准确率与高覆盖率的优点。该算法采用基于LCS(longestcommonsubscquence)的相似性度量方法,设计了一个包含了三个步骤的检测过程框架,保证了算法的效率。综合实验表明本文的算法同时获得了高准确率与高覆盖率。该算法成功应用于上述网络文章的消重,将4.3亿文章型网页分割为0.68亿个相似网页子集(即得到0.68亿篇不同的网络文章),整个过程使用6台Linux服务器仅花费了5天的时间。 4)提出了一种网络文章发表时间的估计方法。发表时间是文章的一个重要属性。比较容易想到的方法是通过从网页文字内容中提取出来的时间、网页的Last-Modified-Time和网页搜集时间这三种信息来推断文章发表时间。然而其效果并不足够理想。因而在此之上本文进一步提出了利用链接分析和检测相同文章的方法来提高计算精度。综合实验表明,前者可以提高约35%的计算精度,而后者的作用更加显著,如果能够检测到文章的多个其它拷贝,则有很大的概率计算出来的文章发表时间是准确的。 5)设计并实现了一个大规模历史网页仓储系统,并提供历史网页回放服务,称为WebInfomall(http://www.infomall.cn)。它用于存储搜集系统持续不断搜集来的历史网页,用户可以在上面使用URL来获取和浏览历史网页。可扩展和增量存储是本系统的两个重要特性。对此,本文设计了相应的存储组织结构和索引结构,它们经历了海量网页数据的考验并具备较好的性能。到目前为止,已经收藏了近六年来在中国互联网上出现过的近30亿网页,压缩以后的数据量超过20TB。此外,本文还设计了一种适合网页长期保存的存储格式。 6)在上述研究成果的基础上,设计并初步实现了一种面向历史事件报道踪迹的搜索引擎系统,称为HisTrace(http://hist.infomall.cn)。它用于检索在历史网页中所记录、描述的历史事件对象,并按时间的顺序将它们展现出来。当前系统建立在一个规模为24亿的历史网页集上,采用前面所描述的方法和技术,从中提取出4.3亿篇文章,在消重之后得到0.68亿篇不同的文章,并为每篇文章计算出它的最早发表时间。然后,为这些文章的标题建立了索引,当用户输入历史事件的关键词时,系统返回与它关联的所有文章(网页),并按发表时间的顺序排列出来。
其他文献
利用计算机视觉技术对农产品进行检测与分析,特别是农产品的营养状况检测,对农业生产具有重大意义。因为传统的检测方法对农产品具有破坏性,且处理周期长,速度慢,无法适应大批量检
随着通信技术的不断发展和社会需求的日益增长,传统的单一媒体的通信服务,如电话、传真,已难以满足人们的日常需求。基于宽带网络的视频会议系统把视频、音频、文字等多种媒体信
讲故事作为学校和家庭教育儿童的有效手段,一直是国内外各研究机构的研究热点。目前的很多儿童讲故事软件以各种形式为儿童提供了故事创作工具,但是它们大多不能让儿童相互协作
在信息化建设迅猛发展的今天,机房的规模不断扩大,并且地理位置趋向分散,为了保证各种硬件设备持续稳定地运行,机房管理员的工作也越来越繁重。在对机房的监控过程中,虽然网络和服
复杂背景下的目标实时分割与检测技术是计算机视觉领域的一个重要研究方向,在人机交互、智能监控和虚拟现实等领域具有广泛的应用前景。本文以视频中的目标实时分割与检测技术
学位
许多涉及海量空间数据共享、交换、集成和服务的WebGIS应用系统,如:空间数据集成系统,空间信息共享服务等应用系统,它们以空间信息共享的GML数据格式传输和处理。由于GML空间数据
仿真图像生成技术是计算机图形学研究的一个重要内容,在各个方面都有广泛的应用。在航空航天领域,地面的应用处理常常依赖空间探测器拍摄结果,由于实验成本的昂贵,对探测器拍摄结
随着对等网络(Peer—to—Peer,简称P2P)技术的快速发展,P2P网络已成为互联网上的一个重要应用。P2P网络将互联网上闲散节点通过一定方式组织起来,提供强大的计算与存储能力。P2P
问答系统是集自然语言处理技术和信息检索技术于一身的新一代智能搜索引擎。与传统的搜索引擎相比,问答系统能更好的满足用户的查询要求,更准确地检索出用户所需要的答案。问答
基因可变剪切计算是生物信息学领域一种重要的科学计算应用。单个基因可变剪切计算批作业中包含大量串行子任务,需要大规模的计算处理能力。这些子任务可以在网格计算环境中并