论文部分内容阅读
随着Internet技术的不断发展及其应用的深入,Web已经发展成为一个巨大的、分布式的和共享的信息资源,可用信息正在呈指数级增长。目前Web数据大都以HTML的形式出现。由于HTML缺乏对数据本身的描述,不包含清晰的语义信息,这使得由HTML描述的Web页面只适合浏览。为了增强Web数据的可用性,出现了Web信息抽取技术,它通过包装现有的Web信息源,将网页上的信息以更为结构化的方式抽取出来,为应用程序利用Web中的数据提供了可能。因此它有着明显的优势和广阔的前景,是当今研究的热点。将信息从网页中抽取出来通常是由包装器(Wrapper)完成的。编写包装器的过程经历了手工、半自动化以及正在研究的全自动三个阶段。已有的手工以及半自动化包装器的建立方法存在着几个主要的困难:首先,大量的手工操作对使用者提出了很高的要求;其次,包装器维护繁锁,不具有通用性。本文在研究现有的Web信息抽取技术的基础上,提出了一种基于树结构的自动提取网页数据的方法。本文的主要贡献有以下几点:1.提出并实现了一种获取相似网页的方法。该方法通过对页面结构的分析,能够非常有效的判断出页面的类型,根据不同的页面类型采取不同的策略,从而能够非常准确的获取到相似的网页。2.改进并实现了一种基于树结构的网页数据自动抽取的算法。该算法通过对不同网页的比较,利用不匹配项来确定包装器。同时,根据产生的包装器来生成数据的模式,并对包装器的变量进行了语义标识,最后实现了将数据从网页中自动抽取。本文提出的这种算法相比现有的Web信息自动抽取算法,有了较大的改进。3.设计并实现了一个Web信息自动抽取的原型系统。通过该系统用户能够把HTML页面中感兴趣的信息点抽取出来,用户能够快速的获取到需要的信息。该系统具有一定的通用性和灵活性。本文提出的Web信息抽取方法能够较好的解决Web信息自动抽取的问题,系统实现了很高的抽取精度。