利用单词超团的二分图文本聚类算法

来源 :中山大学 | 被引量 : 0次 | 上传用户:Z12456879
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自九十年代产生以来,数据挖掘技术的研究已经比较深入,研究范围涉及到关联分析、分类分析、聚类分析、趋势分析等多个方面。在常见的非结构化数据如文本、图像、视频中,文本数据是应用最为广泛的一种形式,因此文本挖掘成为了数据挖掘领域中的一个重要组成部分。 本文通过对传统信息检索技术中文本挖掘的介绍,在传统的文本挖掘基础上提出了一种新型的、更有效的聚类算法——基于单词超团的二分图聚类算法。超团是一种特殊的频繁项集,其中附加了整体相似度的约束,利用超团的这种特性,将其应用于文本聚类,在给定的文本集中挖掘单词最大超团,可以保证每个单词超团内部任意两个元素的相似度不低于事先给定的下界,从某种意义上来讲保留了文档中的简单语意。因此将单词超团作为文本向量的扩展特征在聚类过程中加以使用,能够保证在聚类过程中提高结果的准确性。 本文完成了理论的提出和对整个过程的设计和实现,其中利用单词超团集合进行文本聚类的方法划分为三个步骤:挖掘最大单词超团集合,构成二分图结构和对图进行划分。在此基础上,通过对现实世界提取的若干数据集的测试,根据得到的聚类划分评测指标NMI、CE、ERR、F-measure与标准二分图聚类结果的比较证实了单词超团聚类划分的优越性。
其他文献
支持向量机(SVM)是建立在统计学习理论(SLT)的VC维理论和结构风险最小原理基础上的一种新的通用学习方法,它根据有限的样本信息在模型的复杂性和学习能力之间寻求最佳折衷,以
随着数码照相机、计算机、平板、智能手机等设备的全面普及,在我们的日常生活和工作中常常与大量的多媒体影像、图像打交道,时常需要对其进行抠图处理,人们对于抠图方式的简
蛋白质的生物功能是由它们的空间折叠结构决定的,理解蛋白质的折叠过程是生物信息学领域中极具挑战性的问题之一。近年来,许多研究者从事蛋白质简化模型的研究,这些模型基于
本文对基于旋转平台的物体表面三维重建方法进行了研究。我们的测量装置由一个旋转平台和一台固定的摄像机组成,物体可随旋转平台旋转运动,摄像机固定不动。对该系统进行研究,具
入侵检测作为一种积极主动的安全防护技术,它不仅能检测未经授权的对象对系统的入侵,而且也能监视授权对象对系统资源的非法使用。随着因特网应用的日益普及,基于网络的入侵
随着信息技术的不断发展,软件复用和软件构件化越来越受到业界的广泛关注。当前的构件技术还是存在许多需要进一步改善的地方,譬如传统的构件描述与检索方式,由于缺乏丰富的构件
支持向量机(Support Vector Machine, SVM)作为近年来发展迅速的一种新型的、基于机器学习的一种模式识别算法,具有很好的推广能力,使其应用于多个不同的领域中。目前,SVM分
随着搜索引擎、社交网络以及聊天机器人等应用场景的发展和普及,短文本相似度计算在信息检索、文本分类、智能问答和机器翻译等研究和应用中发挥着重要的作用。传统的文本向
随着Semantic Web研究和Web2.0应用的发展,RDF数据被大量地发布。W3C发布的SPARQL查询语言和数据访问协议,担负着统一RDF查询和数据访问标准的重任。 课题旨在设计实现一个
采用转炉的方式是现在主流的炼钢手段,在转炉炼钢过程中,化渣是其中的一个关键过程。自动炼钢要求利用计算机技术对化渣状态准确、及时判定,作为控制系统实时调控的依据,使得炼钢