基于Tree Based Pattern的网页聚类算法的研究与实现

来源 :华南理工大学 | 被引量 : 0次 | 上传用户：andy630767963

【摘要】

：

随着互联网的不断发展，各种各样的，包含不同主题的信息可以通过网络获取，互联网是人类历史上最大规模的数据库。通常人们获取网络信息的途径有两种：网页浏览和关键字查询。但两种

【作者】

：

符伟安

【机构】

：

华南理工大学

【出处】

：

华南理工大学

【发表日期】

：

2006年期

【关键词】

：

信息提取信息提取网页聚类网页聚类树编辑距离树编辑距离Pattern Pattern

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着互联网的不断发展，各种各样的，包含不同主题的信息可以通过网络获取，互联网是人类历史上最大规模的数据库。通常人们获取网络信息的途径有两种：网页浏览和关键字查询。但两种方式都有不同的限制，主要原因是互联网数据都是属于非结构化或者半结构化的数据，人们并不能很方便的获取。XML的出现为结构化新的数据提供了很方便的支持，但对于历史遗留下来的旧数据，还是无能为力。因此，许多研究人员开始研究如何将互联网的信息变成结构化，并存储于传统的数据库当中，这就涉及到对现有网络信息的提取问题。通常的网页信息提取方法都是编写特殊的程序，称为Wrapper，来对网页的信息进行提取。而这些程序都需要首先对网页进行聚类。对网页进行聚类的方法主要分为两种，一种是基于网页内容的向量模型，一种是基于网页的HTML代码结构。基于向量模型的优点是可以聚类来自不同站点的网页，缺点是聚类的精度较低；基于HTML代码结构的优点是精度高，但缺点是不能对来自区别很大的站点的网页进行聚类。本研究针对来自大的站点的网页。由于他们都是从一定的动态网页模板生成，因此可以利用HTML代码结构进行聚类。主要思想是把HTML源代码看成某种固定的结构，例如一维字符串，或者树型结构。基于树型的代码结构精度高，但难点是聚类的时候，子类的中心难以求得。本文参考新闻信息提取中用到的方法，提出使用带有通配符的树型数据结构作为子类中心，并使用树编辑距离(Tree Edit Distance)方法计算样本距离的TPM(Tree Based Pattern Model)网页聚类算法，解决了聚类树型数据结构的一些问题，在实际的应用中得到了不错的效果。本文可分为四大部分：第一部分阐述了对网页信息聚类和提取的研究背景，并介绍了网页聚类的理论基础和现状。第二部分详细描述了详细的聚类算法设计。第三部分介绍算法框架的设计以及算法评估的机制，并给出试验的结果。最后一个部分是对这种聚类方法的分析以及应用描述。

其他文献

基于汉字构形的自动拼字工具的设计与实现

现在计算机汉字字库通常还是由制作人员通过完全人工的方法进行制作，随着计算机、互连网和印刷技术的发展及汉字字库的不断扩充，提高汉字字库制作的效率成为一个非常重要的问题

学位

字体汉字描述语言计算机汉字字库

科学数据库R4A统一登录系统的设计与实现

科学数据库及其应用系统(简称“科学数据库”)是中国科学院“十五”信息化建设的重大项目。科学数据库采用逻辑上集中、物理上分布的建库和运行服务体系。随着资源数量的日益

学位

科学数据库R4A统一登录系统资源管理访问控制身份认证

基于SIP和P2P技术的视频电话网络设计与实现

随着个人计算设备和互联网的迅速发展，通信软件得到了越来越广泛的应用，并且逐渐成为人们日常生活中不可缺少的一个重要部分。目前学术界也逐步加强在高质量的音频、视频流媒体

学位

视频电话网络SIP协议P2P技术流媒体传输Linux操作系统

基于远程控制通信隐藏技术的研究与实现

随着网络的迅速发展，信息已经成为一种重要的战略资源，信息技术已经渗透到经济，金融，交通，银行各行各业，人们的决策越来越依赖信息。信息战已经成为未来的战争的重要形式。在信

学位

远程控制远程控制端口端口木马木马CGICGIDLLDLL进程隐藏进程隐藏

决策树与遗传算法的混合方法在分类规则挖掘中的应用研究

数据挖掘是当今计算机应用技术和理论研究中最热门的领域之一。数据挖掘技术经过十多年的发展，已经逐渐建立起系统的挖掘理论和成熟的挖掘技术。形成了以关联规则挖掘、分类规

学位

分类规则决策树遗传算法数据挖掘析取规则公共数据集

安全事件分析与关联的研究

本文在简单的介绍了入侵检测技术的概念和困难后，引入了安全事件管理的概念。首先阐述了安全事件管理目前的一些研究现状和它所涉及的一些技术，并介绍了关联算法。然后使用攻击

学位

网络安全

新型供应商关系管理系统的设计与实现

供应商关系管理，是企业供应链上的一个基本环节，它建立在对企业的供方以及与供应相关信息完整有效的管理与运用的基础上，对供应商的现状、历史，提供的产品或服务，沟通、信息交流、

学位

供应商关系管理供应商关系管理J2EEJ2EE决策分析决策分析数据挖掘数据挖掘层次分析法层次分析法

科学数据网格中资源节点信任评价系统的设计与实现

网格技术将分布的资源做统合并有效的利用。它为用户提供了访问、使用和控制分布在不同域的异构资源的能力，同时为网格安全带来新的问题。科学数据网格是以中国科学院十五信息

学位

科学数据网格资源节点信任评价系统网格安全身份认证数据访问服务

互联网中文内容搜索聚合系统的研究与实现

互联网技术和应用的不断发展，使得互联网承载了越来越多的信息。互联网的去中心化发展以及社交工具、自媒体工具在人们生活中的广泛使用也使得越来越多的互联网用户参与到了信

学位

网络信息中文内容搜索聚合系统文档特征提取聚合算法

基于主题模型与语义分析的多文档摘要研究

随着科技的飞速发展,人们每天获得的信息量也与日俱增,这其中除了人们关注的主要信息外,还充斥着大量的冗余信息。而多文档摘要技术能够很好地帮助人们从大量信息中提取主要

学位

层次潜在狄利克雷分配主题建模自动评价方法超参调优

基于Tree Based Pattern的网页聚类算法的研究与实现

其他学术论文