基于Tree Based Pattern的网页聚类算法的研究与实现

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:andy630767963
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的不断发展,各种各样的,包含不同主题的信息可以通过网络获取,互联网是人类历史上最大规模的数据库。通常人们获取网络信息的途径有两种:网页浏览和关键字查询。但两种方式都有不同的限制,主要原因是互联网数据都是属于非结构化或者半结构化的数据,人们并不能很方便的获取。XML的出现为结构化新的数据提供了很方便的支持,但对于历史遗留下来的旧数据,还是无能为力。因此,许多研究人员开始研究如何将互联网的信息变成结构化,并存储于传统的数据库当中,这就涉及到对现有网络信息的提取问题。 通常的网页信息提取方法都是编写特殊的程序,称为Wrapper,来对网页的信息进行提取。而这些程序都需要首先对网页进行聚类。对网页进行聚类的方法主要分为两种,一种是基于网页内容的向量模型,一种是基于网页的HTML代码结构。基于向量模型的优点是可以聚类来自不同站点的网页,缺点是聚类的精度较低;基于HTML代码结构的优点是精度高,但缺点是不能对来自区别很大的站点的网页进行聚类。 本研究针对来自大的站点的网页。由于他们都是从一定的动态网页模板生成,因此可以利用HTML代码结构进行聚类。主要思想是把HTML源代码看成某种固定的结构,例如一维字符串,或者树型结构。基于树型的代码结构精度高,但难点是聚类的时候,子类的中心难以求得。本文参考新闻信息提取中用到的方法,提出使用带有通配符的树型数据结构作为子类中心,并使用树编辑距离(Tree Edit Distance)方法计算样本距离的TPM(Tree Based Pattern Model)网页聚类算法,解决了聚类树型数据结构的一些问题,在实际的应用中得到了不错的效果。本文可分为四大部分:第一部分阐述了对网页信息聚类和提取的研究背景,并介绍了网页聚类的理论基础和现状。第二部分详细描述了详细的聚类算法设计。第三部分介绍算法框架的设计以及算法评估的机制,并给出试验的结果。最后一个部分是对这种聚类方法的分析以及应用描述。
其他文献
随着网络的迅速发展,信息已经成为一种重要的战略资源,信息技术已经渗透到经济,金融,交通,银行各行各业,人们的决策越来越依赖信息。信息战已经成为未来的战争的重要形式。 在信
供应商关系管理,是企业供应链上的一个基本环节,它建立在对企业的供方以及与供应相关信息完整有效的管理与运用的基础上,对供应商的现状、历史,提供的产品或服务,沟通、信息交流、
随着科技的飞速发展,人们每天获得的信息量也与日俱增,这其中除了人们关注的主要信息外,还充斥着大量的冗余信息。而多文档摘要技术能够很好地帮助人们从大量信息中提取主要