论文部分内容阅读
Web内容越来越丰富、复杂,在面对精确的、个性化的用户需求,与移动设备小屏幕不能显示有太多内容的网页,传统地把整个页面作为一个基本的信息获取与处理单位方式效率显得低下。改进抽取效率的一个有效途径是对网页进行分块。本文对Web上两大主要的信息源:目录型网页和主题型网页进行研究。
对目录型网页,针对已有的方法中要求用户提供多个样本页面用于模式查找,信息抽取的搜索空间大,抽取准确率高的抽取模型复杂,模型较为简单的,抽取准确率不高。提出通过单一页面的学习指导信息的抽取,减少学习的时间,与通过定位于多记录信息存在的网页主体块,从网页主体块出发,充分利用Xpath相对路径定位形成抽取规则,直接定位到包含所要提取信息的节点并提取各记录信息,减小信息抽取的搜索空间,有效降低复杂度。从而建立一个使用脚本配置文件,基于Xquery查询的Web信息抽取模型,抽取模型的复杂性和抽取的准确率达到了较好的平衡。然后将其应用到实际电子商务多记录型网站,从中抽取用户指定的信息。实验结果表明,对格式良好、规范网站的信息抽取达到了很好的效果。
对主题型网页,针对提取到的正文内容精确度不够,大多的方法只到识别含正文的内容块为止,抽取到内容块中还存在不少不属于正文内容的噪音内容,如动态链接块信息等,离真正纯粹的正文内容还有一定的差距。本文在研究各种网页分块方法,利用分析标签树的分块方法获取主题正文内容块的基础上,提出对存在链接块的正文内容块通过识别链接块的起始位置和结束位置,然后删除链接块噪音信息的方法,与提出通过定位正文结束标记符的方法,达到精确抽取到的正文内容的目的。论文最后给出了实验的抽取结果,并对这一结果进行详细的分析与指出进一步的研究方向。