论文部分内容阅读
随着互联网的不断发展,各种各样的,包含不同主题的信息可以通过网络获取,互联网是人类历史上最大规模的数据库。通常人们获取网络信息的途径有两种:网页浏览和关键字查询。但两种方式都有不同的限制,主要原因是互联网数据都是属于非结构化或者半结构化的数据,人们并不能很方便的获取。XML的出现为结构化新的数据提供了很方便的支持,但对于历史遗留下来的旧数据,还是无能为力。因此,许多研究人员开始研究如何将互联网的信息变成结构化,并存储于传统的数据库当中,这就涉及到对现有网络信息的提取问题。
通常的网页信息提取方法都是编写特殊的程序,称为Wrapper,来对网页的信息进行提取。而这些程序都需要首先对网页进行聚类。对网页进行聚类的方法主要分为两种,一种是基于网页内容的向量模型,一种是基于网页的HTML代码结构。基于向量模型的优点是可以聚类来自不同站点的网页,缺点是聚类的精度较低;基于HTML代码结构的优点是精度高,但缺点是不能对来自区别很大的站点的网页进行聚类。
本研究针对来自大的站点的网页。由于他们都是从一定的动态网页模板生成,因此可以利用HTML代码结构进行聚类。主要思想是把HTML源代码看成某种固定的结构,例如一维字符串,或者树型结构。基于树型的代码结构精度高,但难点是聚类的时候,子类的中心难以求得。本文参考新闻信息提取中用到的方法,提出使用带有通配符的树型数据结构作为子类中心,并使用树编辑距离(Tree Edit Distance)方法计算样本距离的TPM(Tree Based Pattern Model)网页聚类算法,解决了聚类树型数据结构的一些问题,在实际的应用中得到了不错的效果。本文可分为四大部分:第一部分阐述了对网页信息聚类和提取的研究背景,并介绍了网页聚类的理论基础和现状。第二部分详细描述了详细的聚类算法设计。第三部分介绍算法框架的设计以及算法评估的机制,并给出试验的结果。最后一个部分是对这种聚类方法的分析以及应用描述。