基于新型坐标树的页面分析和内容提取框架

来源 :北京邮电大学 | 被引量 : 1次 | 上传用户:whnbj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的发展和动态网页生成技术的成熟,网页的数量呈爆炸性的增长。而为了商业上的考虑和网站的维护,很多网页都充斥着很多重复性高且与网页主题内容无关的信息。例如:广告、表单和版权声明等。这些内容充斥在每个网页但是却多半不是使用者想要的信息。而目前一般的搜索引擎无法辨别这些不相关的部分,便索引网页所有部分,这不但会使得索引档案巨大而不易管理,也会使搜索结果产生偏差。另外,当使用者利用小型显示装置,如:掌上电脑(PDA),手机等,浏览网页时,也必须经过多次的滚动页面和找寻才能得到想要的信息。所以,在论文中我们提出了一种网页结构分析和内容提取系统来获得网页中真正有信息的部分,以提高基于网页内容的应用系统的服务质量。 针对HTML的半结构化特征和DOM缺乏位置信息和空间关系描述的不足,本文提出了一种新型的Web页面分析和内容提取框架,该框架既包括一种新型的含有位置信息的页面坐标树模型,还包括能反映空间关系的Graph模型。通过将HTML文档转换为坐标树,并结合位置特征和空间关系可对网页进行分析和提取内容。 对来自120个网站的5000个网页进行测试后的结果表明该方法可达到93.87%的准确率,并且对相关连接和相关图片的抽取有较高的准确率和召回率。这表明我们的方法可以很有效的提取出网页的主题内容,这对基于网页内容的应用系统和基于网页超链指向的应用系统都有很大帮助。 在本文的最后我们提出了一种基于决策支持向量机的网页自动分类系统,并将我们的主题内容提取方法应用到该系统,实验表明主题提取提高了原有系统的正确率和召回率。
其他文献
在智能家居(Smart Home)中,视频监控系统(Cameras and Surveillance)是家庭智能安防的重要组成部分。视频监控系统的主要功能是通过图像数据实时浏览监控点的现场情况;视频监
随着信息时代的到来和不断发展,人们已经不只满足于信息传输速率的提高,同时也对信息传输的可靠性提出了更高的要求。如何保证高速传输系统的高可靠性已经成为研究人员设计高速
本文对LED平板显示器的图像缩放处理与扫描控制两大问题进行了研究并实现了系统设计。 文章从LED平板显示器的实际应用及发展背景出发,在讨论几种图像缩放算法的基础上,提出
雷达散射截面(RCS)的计算是电磁场数值计算领域不断发展着的一个重要研究课题,本文研究了将制造业广泛应用的造型方法NURBS法和精确的电磁场数值计算方法矩量法(MM)相结合计算