基于网页分块的Web信息抽取的研究与应用

来源 :广西大学 | 被引量 : 0次 | 上传用户:zybp821
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Web内容越来越丰富、复杂,在面对精确的、个性化的用户需求,与移动设备小屏幕不能显示有太多内容的网页,传统地把整个页面作为一个基本的信息获取与处理单位方式效率显得低下。改进抽取效率的一个有效途径是对网页进行分块。本文对Web上两大主要的信息源:目录型网页和主题型网页进行研究。   对目录型网页,针对已有的方法中要求用户提供多个样本页面用于模式查找,信息抽取的搜索空间大,抽取准确率高的抽取模型复杂,模型较为简单的,抽取准确率不高。提出通过单一页面的学习指导信息的抽取,减少学习的时间,与通过定位于多记录信息存在的网页主体块,从网页主体块出发,充分利用Xpath相对路径定位形成抽取规则,直接定位到包含所要提取信息的节点并提取各记录信息,减小信息抽取的搜索空间,有效降低复杂度。从而建立一个使用脚本配置文件,基于Xquery查询的Web信息抽取模型,抽取模型的复杂性和抽取的准确率达到了较好的平衡。然后将其应用到实际电子商务多记录型网站,从中抽取用户指定的信息。实验结果表明,对格式良好、规范网站的信息抽取达到了很好的效果。   对主题型网页,针对提取到的正文内容精确度不够,大多的方法只到识别含正文的内容块为止,抽取到内容块中还存在不少不属于正文内容的噪音内容,如动态链接块信息等,离真正纯粹的正文内容还有一定的差距。本文在研究各种网页分块方法,利用分析标签树的分块方法获取主题正文内容块的基础上,提出对存在链接块的正文内容块通过识别链接块的起始位置和结束位置,然后删除链接块噪音信息的方法,与提出通过定位正文结束标记符的方法,达到精确抽取到的正文内容的目的。论文最后给出了实验的抽取结果,并对这一结果进行详细的分析与指出进一步的研究方向。
其他文献
对等点播技术已成功运用于越来越多的大规模商业视频点播系统,其客户端数据缓存和共享的特点降低了源服务器的带宽负载。但是,对等网络具有与生俱来的动态特性,节点的频繁退
随着互联网的迅猛发展,网上遍布了成千上万的各类高性能计算机,更快的处理器、更高效率的多处理器计算机已经进入市场,在未来几年内这种趋势将持续发展,使得各种网络技术不断突破
近年来,随着计算机互联网的迅猛发展,系统的用户访问量和用户量飞速增长,同时业务以及用户需求的多样化使业务逻辑的处理日益复杂,维护和开发成本大幅度增长。为了即时响应客
计算机网络的高速发展和网络新应用的不断涌现给网络安全带来了很大的冲击,网络安全成为新的信息安全的热点;安全协议作为计算机网络安全体系的重要组成部分,也就变得越来越
社会化网络服务是近几年兴起并迅速流行起来的互联网应用,人们通过社会化网络服务建立并维护自己在互联网上的人际关系。随着用户对社会化网络服务认同度和参与度的逐渐提高以
疾病预防在当代仍有重要意义。但是,一方面,现代中医预测方法仍以基于经验的人工预测为主,因此可信度和准确度都较低;另一方面,个体疾病预测问题具有高复杂度、小样本、多先验
三网融合使得网络电视(IPTV)在世界范围内得到飞速的发展,但由于各种原因,网络电视所提供的服务与互联网服务还有很大的差距。传统的网络电视中,一方面由于传统Web模式的限制导致
角膜混浊是一项重要的死后变化征象,常用来辅助推断死亡时间。但是由于混浊度无法量化,导致死亡时间估计的准确度不高。针对这一问题,在该领域引入图像分析技术,通过对角膜图
学位
自然界中任何事物都包含着时态属性。所有信息都隐式或显式地具有相应时态特征。随着计算机应用技术的深入和发展,对时态信息显式处理需求越来越迫切。时态数据库就是显式处理