论文部分内容阅读
信息技术的快速发展,已经让web成为一个庞大的信息源,用户准确从web获取所需要的信息的必要手段是信息抽取,如何快速准确地从web文档中查询到人们感兴趣的信息成为必须认真对待的重要问题。传统意义上的信息抽取技术是为文本的信息抽取而设计的,通常主要运用自然语言处理的技术。但是由于抽取信息时,除了文本内容之外没有其他可以使用的信息,所以信息抽取技术的发展相当的缓慢。如何提升web文档信息抽取的效率成为我们的研究热点,对于中文类型的web文档进行信息抽取有相当重要的实际意义。本文针对以上问题,对web文档信息抽取的深入地系统地研究,取得了以下两项研究成果。1.通过试验观察得出标点符号在web文档中的分布特征,发现标点符号可以作为web文档信息抽取的依据。2.针对中文类型网页,提出一种以标点符号统计特征为基础的抽取web文档正文的方法。该方法首先把web文档转换成与之相对应的DOM树,然后由标点符号的统计特征构造叶子结点的特征向量,由叶子节点的特征向量计算两个叶子结点的距离和每个叶子节点的权值,选择权重最大和最小的两个叶子结点作为样本叶子节点,把他们作为k-means算法的聚类的初始中心,利用抽取k-means把所有叶子节点分成两个聚类,选择权值最大的叶子节点所在的聚类,这个聚类中每个叶子所包含的内容都作为web文档的正文信息。实验结果显示,本论文提出的方法可以准确地把正文信息从web文档中抽取出来,这个算法拥有比较好的通用性。