基于XML的Web信息抽取研究

来源 :安徽大学 | 被引量 : 0次 | 上传用户:yindiantiffany
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的迅速发展,Web上信息量急速增加,Web已经发展成为一个巨大的分布和共享信息资源的平台,如何从中获得想要的信息成为亟待解决问题,Web信息抽取技术由此产生。Web信息抽取是从已经存在多年的信息抽取技术中繁衍出来的,它继承和发展了信息抽取领域的一些关键技术,并结合Web页面自身的特点,它是把互联网上存在的网页作为信息源,从中抽取用户感兴趣信息的过程。  可扩展标记语言XML技术的出现,为Web的信息抽取和应用提供强有力的支持。我们可以把页面文档解析成DOM树的结构,对页面的操作转化为对DOM树的处理,然后采用XPath路径表达式定位DOM树中节点;XSLT是XML文档的转换语言,有了它我们可以对已知XML文档编写抽取规则,实现XML文档与Web页面的转换。  本文结合XML技术优势实现对Web网页的信息抽取,构建了一个基于XML的Web信息抽取系统,提出了基于最小DOM树的信息定位方法。本文首先将待抽取的Web页面通过工具HTML Tidy进行优化,将HTML文档转换成符合XML语法的XHTML文档,然后采用DOM4J软件包在JAVA平台下将Web页面解析为DOM树结构;依据信息模型和知识库提供的文本,对DOM树中的文本进行匹配,当匹配程度大于设定的阈值时,我们可以认定当前页面中包含要抽取的信息,将返回匹配成功的信息的XPath路径并存入信息路径表;根据信息路径表获取最小DOM树的路径,生成针对当前站点的抽取规则;把抽取结果存储为XML文档格式,在已知抽取结果XML文档的基础上,根据应用的需要,利用XSLT生成针对XML文档的抽取规则,在兼容XSLT的浏览器上都可以运行显示。  本文的信息抽取系统目标并不是构建一个通用的信息抽取系统,而是针对某一领域或者说是针对某一类的信息构建的抽取系统,需要系统的构建者制定抽取领域的信息模和建立对应的知识库。在本文的实验室中,针对某一网站的招聘信息进行抽取,建立了简单信息模型和知识库;根据获取的最小DOM树的XPath路径生成抽取规则,并把抽取结果存储为格式良好的XML文档。
其他文献
现实世界的很多复杂系统(如社会网络、蛋白质交互网络、因特网等)都是由相互联系的实体组成的,自然地以网络的形式存在或者可以用网络来表示。社区结构刻画了网络中节点间关系的
RFID (Radio Frequency Identification)射频识别技术,是一种快速的、非接触式的识别技术,基于低成本、易使用、技术成熟等特点,RFID技术已经被广泛应用到各个领域中。RFID企
本论文的主要内容是研究和开发一个半导体设备的数据采集控制系统。该系统采用eBox作为硬件平台和嵌入式Linux作为操作系统。根据用户的要求,在Qt/Embedded开发环境下,用C++
伴随着信息革命的快速发展,GIS已成功和Web技术相结合,把 GIS空间数据管理推进到 WebGIS空间信息服务。随着公众对地理信息应用新的需求和新技术的出现,现有的WebGIS产品表现出
随着网络应用领域的不断深入,如何保证信息安全,特别是在非安全的网络信道中传输信息的安全性,就成为一个非常重要的研究课题。密码技术作为信息安全的核心技术,一直是信息安
指令集随机化技术是一种通过随机变换程序指令编码来抵御代码注入攻击的新型防御技术,改变了传统安全防御易攻难守的被动局面,实现了对已知和未知代码注入型漏洞攻击的主动可控
科技文献检索是科技研究不可或缺的一项工作,随着电子文献资源的剧增,通过网络来检索文献,是目前最为方便的检索途径。目前Internet上用户使用的信息检索模式有基于关键词、
随着大数据时代的来临,流交换正在逐步成为数据交换发展的新趋势。它具有数据量宏大、内容不可预测和低时延的特性。然而,随着流交换应用的与日俱增,流交换的安全问题日益凸显。
随着社会的发展和科学技术的进步,现代社会对测量实验仪器的需求及其性能要求在不断提高。虚拟仪器改变了传统仪器的思想,充分利用计算机强大的软硬件功能,把计算机技术与仪
倒排索引是提高全文检索效率的重要技术,但是倒排索引的空间效率、动态性能、创建效率和检索效率一直是倒排索引面临的关键问题。本文正是围绕动态全文索引的构建合并、增量