结合网页结构特征与内容特征的正文提取

来源 :重庆大学 | 被引量 : 0次 | 上传用户:xyhanhui
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为了方便人们的阅读习惯、网页的排版格局以及网站的商业目的,网页中往往充斥了许多与网页正文无关的内容,如导航条、相关链接和商业广告等信息。无关信息的存在,对网页的检索、存储以及分类都会带来负面的影响。如何将正文从充满了无关信息的网页中提取出来,成为对网页进行充分利用的关键。  网页正文提取成为当前研究的热点,并且,已有许多国内外学者提出了不同的提取方法,但这些方法也存在着一些不足:基于统计的方法由于重点关注网页的统计信息,很少利用网页的结构特征,提取的准确率往往不高;基于DOM的方法复杂度较高,对网页的规范化要求比较严格,对书写不规范的网页的解析将不会彻底,有时候甚至在解析的过程中发生崩溃;基于视觉特征的提取方法尽管能满足复杂页面的要求,然而,由于视觉特征复杂多样,因此,实现起来较为复杂。  针对上述问题,本文通过对大量网页进行研究,从网页的结构特征和内容特征出发,试图找出一种通用的、能够快速准确的对网页正文部分内容进行提取的方法,主要内容包括:  ①通过网页的URL地址从互联网上下载网页,将网页源码以字符串的形式保存,利用正则表达式完成对网页中与正文无关的元素的过滤。分析网页的结构特征,利用HTML中的容器标签对网页进行线性分块,避免了网页标签之间的嵌套关系。  ②利用分块之后各块中文本以及标点符号分布的内容特征,将其分别划分为文本块与链接块。其中,文本块主要存在与网页正文部分,而链接块通常位于网页的“噪音”部分。  ③网页中“噪音”内容通常是连续出现的,根据这个特点,首先找出文本块中文本长度最大的块。在此块的基础上,对块序列向前和向后查找连续出现的链接块作为正文部分的边界,提取其中的内容作为网页的正文内容。  最后,为了验证文中提出方法的有效性,本文设计并实现了一个网页正文提取的原型系统。通过一系列实验进行对比说明,本文所提出方法能够快速、准确的提取网页中的正文部分内容。
其他文献
本体是共享概念模型的形式化规范的说明,目前已经被成功地应用到语义网、人工智能和知识工程等领域。本体是语义网的核心基础,然而本体创建和使用具有主观性和自治性,从而导致了
无线传感器网络(WSN)综合了计算机技术、通信技术以及传感器技术,被广泛用于环境监测、军事防御等领域,是当今嵌入式领域的研究热点。WSN应用开发设计涉及的相关领域较多,包括射频
本文主要研究了一种新的生物特征识别技术——手背静脉识别,包括近红外手背静脉图像采集、图像预处理、基于自适应滤波的手背静脉图像增强算法、基于动态全局阈值的手背静脉分
互联网近年来呈现蓬勃发展趋势,网上的信息量每日呈爆炸式的增长。信息海量增长的同时,百度,谷歌等通用搜索引擎已经无法满足人们对特定领域的搜索需求。为此,针对特定领域的垂直
随着互联网技术的快速发展,信息的结构也变得多样化。文本数据不但包含内容信息,也包含了共同作者关系(coauthors),相互引用关系(citations),地理位置和时间等附加信息,这样就构成了多
进化算法已经用于逻辑电路设计很多年。相比于传统的逻辑电路设计方法,进化算法有其独特的吸引人之处。使用进化算法设计电路不需要太多专业的背景知识,具有智能化的特点。逻辑
数十年来,计算机体系结构技术一直在不停的演化和发展着,而来自上层的应用需求则是一个重要的驱动来源。随着一些新兴应用的不断出现,传统的高性能通用处理器已经难以发挥其功效
盲签名是一种特殊的数字签名,签名者无法得知待签名消息的内容。盲签名的完全盲性使得签名者对签名消息不可控,并且会导致密钥管理变的复杂。部分盲签名是盲签名的一种拓展,
现如今,WCDMA协议已经成为了两大主流通信体制的一部分并越来越受到人们的关注。而对于无线通信系统来说,呼叫流程能否成功建立是一个很关键的问题,可以称得上是整个通信系统
近些年,信息通信技术取得了飞速发展,消费类电子产品发生了很大的变化,正在朝着互联、互控和互通的方向发展,人们的生活迈入全新的智能时代。智能手机、平板电脑、汽车电子设