论文部分内容阅读
近年来,随着Web信息抽取技术研究的深入和快速的发展,基于正则表达式的信息抽取技术已成为现阶段数据挖掘领域的一个研究热点。本文对这项技术进行深入研究,通过比较和分析当前Web信息抽取领域中的经典方法,改进了一些已有的算法并提出了基于REIE(Regular Expression Information Extraction)算法的信息抽取技术。本文首先介绍了Web信息抽取技术的相关理论知识以及体系结构,通过分析和比较几种经典的信息抽取方法,提出了一种基于REIE的信息抽取技术,同时给出了信息抽取系统的评价标准。然后,通过分析Web文本,介绍基于Web文本挖掘的方法,利用Web文本挖掘的相关性,详细地分析了HTMLParser的信息解析方式和抽取原理,并且给出了HTMLParser的数据结构。最后根据正则表达式的抽取规则,提出了本系统的核心算法,即REIE抽取算法。本文最后实现了一个基于REIE的网页内容抽取系统,主要抽取网页新闻的标题,超链接,正文内容等相关信息。该系统能实时的进行网页内容抽取,并将抽取结果以可视化的方式呈现给用户,同时,系统从实验角度验证本文方法的有效性。实验表明,对于基本的新闻相关信息,本文提出的方法具有较高的抽全率和抽准率,并且在一定程度上提高了Web信息抽取的实时性和准确性。