基于特征词的文本聚类算法研究

来源 :河南大学 | 被引量 : 0次 | 上传用户：tftaofeng

【摘要】

：

随着计算机网络的高速发展,各种各样的文本信息如潮水般不断涌现,呈指数级增长,导致人们对信息的搜寻、过滤和管理困难,因此对文本数据的管理和分析就变得空前重要。快速高质

【作者】

：

蔡坤

【机构】

：

河南大学

【出处】

：

河南大学

【发表日期】

：

2009年期

【关键词】

：

文本挖掘文本聚类特征降维特征词

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着计算机网络的高速发展,各种各样的文本信息如潮水般不断涌现,呈指数级增长,导致人们对信息的搜寻、过滤和管理困难,因此对文本数据的管理和分析就变得空前重要。快速高质量的文本聚类技术可以将海量的文本信息分成有意义的若干簇,这种技术能够提供导航、浏览机制,改善检索性能。因此对文本聚类技术的研究已经成为文本数据挖掘中一个非常重要的研究方向。聚类技术作为文本数据挖掘的核心技术之一,其目标是将文本集合分成若干个簇,要求同一簇内文本内容的相似度尽可能的大,而不同簇之间的相似度尽可能的小。本文对文本聚类面临的“维度灾难”问题、聚类的初始优化问题和具体的文本聚类算法进行了分析和研究。主要有以下几个方面的工作:在分析文本聚类预处理关键技术的基础上,研究了特征项的权重计算方法并利用特征项的位置权重信息对经典的TF-IDF(term frequency-inverse documentfrequency,TF-IDF)权重计算方法进行了改进,提出了P-TF-IDF(position termfrequency-inverse document frequency,P-TF-IDF)权重计算方法。用k-means等常用文本聚类算法和F1-measure等聚类有效性评价指标验证了改进后的权重计算方法P-TF-IDF在提高聚类结果有效性上的作用。针对文本聚类过程中面临的“维度灾难”问题,提出了一种特征降维处理方法topN方法,并从聚类效果评价角度验证了topN方法对文本聚类的有效性。最后结合权重计算方法P-TF-IDF和topN方法,本文在基于划分的聚类算法的基础上提出了基于topN特征词的文本聚类算法,通过测试数据对不同算法进行了对比实验分析,本文算法显示出了较高的稳定性和准确率。

其他文献

参数不确定性系统的鲁棒稳定性研究

控制系统的稳定性是我们最关心的问题之一.但是,参数的不确定性会破坏系统的稳定性和其他性能.鲁棒控制正是试图描述被控对象的不确定性,并在其允许的摄动范围内综合设计控制

学位

参数不确定性鲁棒逆奈奎斯特阵列方法鲁棒Gershgorin带鲁棒稳定性

基于混合灵敏度指标的广义系统鲁棒极点配置

广义系统是一类更一般化,并有着广泛应用背景的动力系统,近三十年来受到广泛的关注。本文以线性时不变广义系统为研究对象,研究广义线性系统的鲁棒状态反馈极点配置问题。鲁

学位

广义系统极点配置状态反馈鲁棒性

基于嵌套Spreadsheet和数据流的多模态的Mashup应用构造

万维网(Web)汇聚了越来越多的信息资源及应用,Web计算环境下如何满足用户多样化的信息聚合需求,成为一个颇具挑战性的问题。人们希望通过简单定制来即时在线构造满足其个性化

学位

Mashup应用多模态嵌套关系模型嵌套SPreadsheet递归代数

半定互补问题的算法研究

半定互补问题是将一般互补问题中的非负实向量由块对角对称半正定实矩阵替换，因此半定互补问题是一般互补问题的推广。半定互补问题在经济、优化及工程领域有着广泛的应用，所以

学位

半定规划半定互补价值函数随机变量

Amenable群作用的拓扑动力系统

本文研究了amenable群作用的拓扑动力系统中的一些内容，主要是将作用的拓扑动力系统中的一些概念，性质，定理推广到amenable群作用的动力系统中。　　第一部分首先介绍了amenable

学位

amenable群作用测度中心极小吸引拓扑动力系统

传承优秀传统文化提高学生德行修养

老子的《道德经》,以“道”为核心,建构了独特而又丰富的哲理体系.这一体系,不仅是道家学派的核心,也是整个中华文明的源头之一,与儒家学派等一起塑造了中国文化和中国人的精

期刊

如何在数学教学中培养爱国主义情怀

中国是世界文明古国之一，灿烂的文明曾让我们这些华夏子孙为之骄傲！中国的文明与古代埃及、印度、美索不达米亚一样都是古老的农耕文明，但它与其他文明不同，其持续发展两千余年之

期刊

中国数学起源发展影响

基于药物作用的Willis环脑动脉瘤模型的混沌分析

脑动脉瘤是我国居民常见的恶性疾病,当前对脑动脉瘤的研究主要集中在整数阶领域。本文构造了分数阶Willis环脑动脉瘤系统,研究了分数阶阶值对系统的影响。此外,建立了降压药

学位

脑动脉瘤Lyapunov指数谱降压药物分数阶混沌系统分数阶

多目标半定规划的一类评价函数法

多目标半定规划是多目标规划和半定规划两方面的有机结合，这是一个较新的研究方向。由于多目标规划强大的实际应用价值，以及半定规划的迅速发展，多目标半定规划将成为一个新的研

学位

多目标规划半定规划评价函数博弈分析

粒子群进化方程与有关算法研究

在当今大规模生产中,多学科的交叉研究为解决优化问题提供了新的思路,以生物智能或自然现象为基础的新型智能优化算法在研究与应用中表现出优异的性能,现代智能算法也成为人

学位

优化算法粒子群算法免疫算法模糊控制混合算法策略

基于特征词的文本聚类算法研究

其他学术论文