模糊聚类算法及其在文本挖掘中的应用

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:w19282
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类分析是机器学习中很重要的一个研究领域。聚类分析所涉及的领域包括:数据挖掘、统计学、机器学习、空间数据库技术、生物学等。由于各应用数据库所包含的数据量越来越大,聚类分析已成为数据挖掘研究中一个非常活跃的研究课题。在众多聚类算法中,模糊聚类算法是最常用的算法之一。至今,文献中仍然不断有新的模糊聚类算法出现。 本文对基于划分的模糊聚类算法进行了研究,从理论上证明了Lees算法并不是FCM算法的改进算法,应该属于PCM型算法。属性选择和加权是聚类分析中另一个重要的研究课题。本文提出了一种新的基于属性加权的模糊C均值聚类算法。之后又给出了使用该算法时的参数选择理论规则。 除此以外,本文还对聚类分析的应用领域—文本挖掘进行了研究。将文中所提出的新算法应用于文本,并对实验结果做了分析。全文共分六章,各章的主要内容如下: 第一章介绍了聚类的定义、分类情况以及与本文联系较为密切的两种基于划分的聚类算法。确定本文的研究范围和基本框架。 第二章在对PCM型算法介绍之后,对一种模糊聚类算法进行了深入研究,从理论上证明了该算法的正确归类。 第三章首先介绍了属性加权聚类算法的研究现状,尤其是对两种属性加权C均值算法进行了详细介绍。在此基础上,提出了一种新的属性加权的模糊C均值聚类算法,并对该算法目标函数的海森矩阵进行分析,得出使用该算法时的参数选择规则。之后,对属性加权模糊C均值算法和前文重点介绍的两种加权聚类算法进行了实验比较。 第四章介绍了文本挖掘的一些基本概念和常用技术。具体分析了文本挖掘尤其是文本聚类的研究意义。重点介绍了文本挖掘中的预处理步骤和策略,对自动分词、特征表示以及特征提取进行了详细阐述。 第五章中,将本文提出的属性加权模糊C均值算法(AWFCM)应用于文本,实现了文本聚类过程中的预处理操作,并分别使用C均值和AWFCM算法对预处理所得的文档表示矩阵进行了聚类,之后根据实验结果得出了有意义的结论。 第六章对全文总结,讨论了模糊聚类算法研究中存在的问题,以及该类算法应用于文本挖掘时所面临的挑战,给出了下一步的研究目标。
其他文献
小波分析是继Fourier分析之后新的时频分析工具,它在科学研究和工程技术中的应用非常广泛。虽然小波理论现已比较成熟,但是近年来有关它的应用研究仍在不断发展更新。小波变
随着计算机及网络技术的飞速发展,其暴露出的安全隐患也日益增多,物联网是一种多维、异构、动态的三层结构网络,与生物免疫系统具有很大的相似性,人们从生物免疫系统中得到灵感,希
虚拟心脏是通过数学建模和计算机仿真等方法在计算机上再现心脏组织和结构的研究课题,虚拟心脏可通过三维可视化方法实现。心脏三维可视化是将一组二维心脏图像通过体绘制等一
移动计算是移动计算机可以在网络中自由移动的计算网络,且移动对用户是透明的。随着移动通信技术的迅猛发展和移动计算机的大量普及,移动计算正成为当今通信发展的一个热点领
电子地图是在信息革命的大背景下,地图学与计算机科学紧密结合的产物。它利用先进的信息技术极大地拓展了地图的用途,促进了地图学的又一次革新。锅炉设备与发电用煤的适应性是
GBA(Gameboy Advance)是Nintendo公司于2001年发布的便携式娱乐设备。通过软件其它平台(如PC)模拟GBA的运行环境并加载运行GBA的应用称为GBA模拟器。由于硬件平台的不同,一个
随着信息技术尤其是计算机技术的迅速发展,网络上的信息越来越丰富,合理的组织和利用信息资源变得越来越重要,由此诞生了管理海量资源的数字图书馆技术。数字图书馆包括各种格式
多Agent系统是传统人工智能问题求解模式与分布式计算技术日益融合而形成的一种系统组织形式。在多Agent系统中,Agent作为系统的基本元素,具有自主性、反应性、社会性等特征
随着大量应用系统由集中转向分布,实现分布式环境下不同信息源之间的互连、互通、互操作已成为一个十分迫切的问题。然而,要想直接在不同的分布式系统中共享数据并进行交互操
随着网络规模的不断扩大和广泛应用,网络受到的威胁越来越多,越来越复杂,网络的安全防护也变得越来越重要。网络安全是一项动态的系统工程,单一的安全产品很难满足网络安全建