面向领域的半结构化Web信息抽取技术

来源 :山东科技大学 | 被引量 : 0次 | 上传用户:liusheng123321
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为了应对信息爆炸带来的挑战,人们迫切需要一些自动化的工具在海量信息源中迅速定位到真正需要的信息。在这样的情况下,信息抽取技术应运而生。目前大部分的Web信息抽取方法都是针对某一个特定的网站的网页人工进行包装器的编写,不能适应网页结构的变化而且系统的移植性较差,而且难以对其他网站进行抽取。本文结合特定领域半结构化文本Web页面的结构特征,提出了一种Web信息自动抽取方法。通过前期对系统进行训练,使之能够根据待抽取网站信息的结构特点自动生成抽取规则,达到自动抽取的目的。本文的主要贡献有两点:一是引入了领域关键词词库,为本领域信息抽取提供知识支持。提出了一种针对特殊领域半结构化信息的关键词提取方法。通过利用半结构化信息的格式特征,人工定制包装器,结合网站遍历器对特定领域的典型网站进行信息抽取,训练生成领域关键词词库。关键词词库通过领域网页语料库训练生成,有了领域知识的来源优势,使得信息抽取技术的适用范围有了很大的提高。二是提出了基于领域关键词词库的抽取规则自动生成方法。将目标网站的样本页面解析为DOM树,提取出有效信息结点,并用关键词词库对结点信息进行匹配,映射出针对目标网站的抽取规则。本文还解决了以下几个问题:设计了基于正则表达式的特定领域半结构化文本的包装器建立方法,提出了超链抽取过程中各种属性链接的处理方法,改进了DOM树有效结点判断算法以适应半结构化文本,提出词库与有效结点到正则表达式的映射方法等。本文最后以农产品行情信息网站作为实验对象,展示了农产品关键词词库的建立与抽取规则的自动生成过程,并通过实验结果验证了自动生成的抽取规则的有效性。总之,基于训练生成的领域语料库生成抽取规则,拥有领域知识的来源优势。所设计的面向领域的半结构化Web信息抽取系统具有开放性、且容易升级,通过对更多Web语料库的训练,词库的完善性会不断提高,系统的适应性也随之加强,能够胜任更多领域半结构化文本的Web信息自动抽取工作。
其他文献
随着先进计算机技术的高速发展,数字图像处理算法在户外监控系统,如道路监控、城市交通监控等领域被广泛运用。但是在雾霾天场景中,监控系统采集到的图像质量较差,对比度往往
随着并行计算技术的发展,以众核加速器作为协处理器的异构集群逐渐成为并行计算机的发展方向,在其基础上混合并行计算模型成为主要并行算法设计模型。地球物理大地电磁研究技术
关注点分离和建立模型是软件工程中降低软件系统复杂度的两个重要手段。面向对象技术在关注点分离与面向对象建模领域取得了重大的进展,但仍然存在不足,尤其是在横切关注点的
随着信息技术和计算机网络的飞速发展,数字式多媒体信息的存储、复制和传播变得越来越方便,由此引发的盗版问题和版权纷争日益严重,对版权的要求也日益迫切,数字水印技术就是
近年来煤矿安全事故频繁发生,诱发事故的众多原因中,难以预测的井下供电系统事故是导致瓦斯灾害发生的重大因素,采用可靠的自动化智能综合保护装置对于提高配电网的供电质量
随着Web Service、移动计算、无线传感网络等新兴技术的不断发展和成熟,现如今软件系统的运行环境已变得日趋复杂和多变;同时人们对于软件系统高可靠性、高适应性的需求也在
随着无线技术的快速发展和日益成熟,无线传感器网络的应用已经从军事领域步入了人们的日常生活,给我们的生活带来了翻天覆地的变化。与有线网络相比,无线网络共享信道的特性
综合办公系统已经成为企业最基础的应用和整合平台,也是企业进行信息交流的最直接的手段。企业结合自己的实际情况,建设一套及办公和生产管理的“综合管理系统”已经成为衡量
正如XML正在对Web信息的组织和传输性能产生深远影响一样,作为基于XML的空间信息编码标准的GML,也正在GIS领域掀起一场针对空间数据处理的革命。GML的一个重要优势就是它能够
中医是中国古人同疾病抗争的经验和理论知识的承载体,经过长期医疗实践才逐步形成并发展为理论体系的。然而,在传统中医的诊疗过程中,由于学术观点、经验在地域、时间、医家个体