基于特征词的文本聚类算法研究

来源 :河南大学 | 被引量 : 0次 | 上传用户:tftaofeng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机网络的高速发展,各种各样的文本信息如潮水般不断涌现,呈指数级增长,导致人们对信息的搜寻、过滤和管理困难,因此对文本数据的管理和分析就变得空前重要。快速高质量的文本聚类技术可以将海量的文本信息分成有意义的若干簇,这种技术能够提供导航、浏览机制,改善检索性能。因此对文本聚类技术的研究已经成为文本数据挖掘中一个非常重要的研究方向。聚类技术作为文本数据挖掘的核心技术之一,其目标是将文本集合分成若干个簇,要求同一簇内文本内容的相似度尽可能的大,而不同簇之间的相似度尽可能的小。本文对文本聚类面临的“维度灾难”问题、聚类的初始优化问题和具体的文本聚类算法进行了分析和研究。主要有以下几个方面的工作:在分析文本聚类预处理关键技术的基础上,研究了特征项的权重计算方法并利用特征项的位置权重信息对经典的TF-IDF(term frequency-inverse documentfrequency,TF-IDF)权重计算方法进行了改进,提出了P-TF-IDF(position termfrequency-inverse document frequency,P-TF-IDF)权重计算方法。用k-means等常用文本聚类算法和F1-measure等聚类有效性评价指标验证了改进后的权重计算方法P-TF-IDF在提高聚类结果有效性上的作用。针对文本聚类过程中面临的“维度灾难”问题,提出了一种特征降维处理方法topN方法,并从聚类效果评价角度验证了topN方法对文本聚类的有效性。最后结合权重计算方法P-TF-IDF和topN方法,本文在基于划分的聚类算法的基础上提出了基于topN特征词的文本聚类算法,通过测试数据对不同算法进行了对比实验分析,本文算法显示出了较高的稳定性和准确率。
其他文献
控制系统的稳定性是我们最关心的问题之一.但是,参数的不确定性会破坏系统的稳定性和其他性能.鲁棒控制正是试图描述被控对象的不确定性,并在其允许的摄动范围内综合设计控制
广义系统是一类更一般化,并有着广泛应用背景的动力系统,近三十年来受到广泛的关注。本文以线性时不变广义系统为研究对象,研究广义线性系统的鲁棒状态反馈极点配置问题。鲁
万维网(Web)汇聚了越来越多的信息资源及应用,Web计算环境下如何满足用户多样化的信息聚合需求,成为一个颇具挑战性的问题。人们希望通过简单定制来即时在线构造满足其个性化
半定互补问题是将一般互补问题中的非负实向量由块对角对称半正定实矩阵替换,因此半定互补问题是一般互补问题的推广。半定互补问题在经济、优化及工程领域有着广泛的应用,所以
本文研究了amenable群作用的拓扑动力系统中的一些内容,主要是将作用的拓扑动力系统中的一些概念,性质,定理推广到amenable群作用的动力系统中。  第一部分首先介绍了amenable
脑动脉瘤是我国居民常见的恶性疾病,当前对脑动脉瘤的研究主要集中在整数阶领域。本文构造了分数阶Willis环脑动脉瘤系统,研究了分数阶阶值对系统的影响。此外,建立了降压药
多目标半定规划是多目标规划和半定规划两方面的有机结合,这是一个较新的研究方向。由于多目标规划强大的实际应用价值,以及半定规划的迅速发展,多目标半定规划将成为一个新的研
在当今大规模生产中,多学科的交叉研究为解决优化问题提供了新的思路,以生物智能或自然现象为基础的新型智能优化算法在研究与应用中表现出优异的性能,现代智能算法也成为人