基于频繁项集的文本聚类方法研究

来源 :中南大学 | 被引量 : 0次 | 上传用户:songyingling
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本是一种重要的信息载体,其数量随着互联网的不断发展极速膨胀。文本聚类作为一种无监督的机器学习方法,已成为对文本信息进行有效的组织、摘要和导航的重要手段,为越来越多的科研工作者所关注。在很多文本挖掘和信息检索系统中,文本聚类发挥着越来越重要的作用。论文研究如何改进与中文文本聚类相关的若干处理过程来得到一个好的聚类结果。文本聚类相关的处理过程主要包括文本预处理、特征项选择、文本表示和聚类,它们对聚类质量起至关重要的作用。传统的文本聚类算法基于向量空间模型(VSM),该模型使用关键词作为特征项,忽略了词语间的潜在语义关系,其固有的“高维诅咒”问题成为了算法性能提升的瓶颈,这些问题极大地干扰了算法的效率。论文引入知网作为算法的背景知识库,通过将文本中的关键词映射为知网中的概念,使算法在概念集上进行,来弥补VSM存在的语义缺失问题。为提高算法性能,引入频繁项集和非重叠度的概念,使用一种新的文本集划分策略实现对原始文本集的划分。在此基础上,论文提出了一种基于频繁项集的文本聚类算法CFI。论文最后设计了多项实验对CFI算法的可行性进行分析。实验表明,通过融合知网知识库和频繁项集的概念,算法有效降低了特征空间的维数,提高了聚类准确性,并且较传统的基于频繁项的同类方法获得了更好的聚类效果。
其他文献
随着经济社会的高速发展、汽车拥有量的急剧增加,公路交通成为重要的交通运输途径,日益拥堵的城市交通需要更先进、更有效的交通管理与控制手段。利用电子信息技术建立智能交
电容层析成像(Electrical Capacitance tomography,ECT)是一种快速发展的过程层析成像(Process Tomography,PT)技术,具有成本低,响应快、非侵入性和安全性好等优点,ECT已成为PT主
随着信息时代的到来和Internet的日益普及,越来越多的信息以电子文本的形式存在于网络上。如何从海量的文本中提取潜在的、有价值的知识成为信息处理的一大目标。其中,文本分
非平稳信号是日常生活和科学研究中经常观察到的现象,这些信号往往持续时间有限,存在产生和消亡。传统的信号频域分析法一傅立叶分析只适用于分析信号组成分量的频率不随时间
图中节点间的可达性判定,在现实中的多个领域有着广泛的应用,包括知识表达、程序分析、地理导航、Internet路由、基于RDF/OWL的本体查询、代谢网络和XML索引等。一个传统的解
随着计算机网络迅速发展,网络攻击手段日新月异,网络安全问题也变得日益复杂和突出。传统的安全技术各有各的缺点,主要表现在:防火墙技术是一种静态的被动防御手段,它对内部的攻击
随着互联网技术的发展,基于移动端的新媒介不断涌现。微信因其内容微型化、可迅速传播扩散,支持实时对讲,且集社交、通讯、平台与一体等特点,受到国内外用户的高度认可。微信
虚拟现实(Virtual Reality,简称VR)技术,是一门综合性信息技术,兴起于20世纪末,应用前景广泛。本论文是“古代建筑虚拟修复与保护”研究子项目基于VRML古代建筑动态漫游系统
节点定位技术是无线传感器网络(Wireless Sensor Network,WSN)的主要支撑技术之一,即根据少数己知位置的节点,按某种定位机制确定自身位置。WSN中的传感器节点在存储、计算和
目前,计算机在航空、军事等关键领域已广泛应用。在这些领域中,计算机系统可靠稳定的运行起着非常关键的作用。任何计算机系统受电磁脉冲的干扰都会产生一些故障,这些故障可