论文部分内容阅读
随着互联网的迅速发展,Web上信息量急速增加,Web已经发展成为一个巨大的分布和共享信息资源的平台,如何从中获得想要的信息成为亟待解决问题,Web信息抽取技术由此产生。Web信息抽取是从已经存在多年的信息抽取技术中繁衍出来的,它继承和发展了信息抽取领域的一些关键技术,并结合Web页面自身的特点,它是把互联网上存在的网页作为信息源,从中抽取用户感兴趣信息的过程。 可扩展标记语言XML技术的出现,为Web的信息抽取和应用提供强有力的支持。我们可以把页面文档解析成DOM树的结构,对页面的操作转化为对DOM树的处理,然后采用XPath路径表达式定位DOM树中节点;XSLT是XML文档的转换语言,有了它我们可以对已知XML文档编写抽取规则,实现XML文档与Web页面的转换。 本文结合XML技术优势实现对Web网页的信息抽取,构建了一个基于XML的Web信息抽取系统,提出了基于最小DOM树的信息定位方法。本文首先将待抽取的Web页面通过工具HTML Tidy进行优化,将HTML文档转换成符合XML语法的XHTML文档,然后采用DOM4J软件包在JAVA平台下将Web页面解析为DOM树结构;依据信息模型和知识库提供的文本,对DOM树中的文本进行匹配,当匹配程度大于设定的阈值时,我们可以认定当前页面中包含要抽取的信息,将返回匹配成功的信息的XPath路径并存入信息路径表;根据信息路径表获取最小DOM树的路径,生成针对当前站点的抽取规则;把抽取结果存储为XML文档格式,在已知抽取结果XML文档的基础上,根据应用的需要,利用XSLT生成针对XML文档的抽取规则,在兼容XSLT的浏览器上都可以运行显示。 本文的信息抽取系统目标并不是构建一个通用的信息抽取系统,而是针对某一领域或者说是针对某一类的信息构建的抽取系统,需要系统的构建者制定抽取领域的信息模和建立对应的知识库。在本文的实验室中,针对某一网站的招聘信息进行抽取,建立了简单信息模型和知识库;根据获取的最小DOM树的XPath路径生成抽取规则,并把抽取结果存储为格式良好的XML文档。