基于模糊聚类的文本挖掘方法研究

来源 :河北工业大学 | 被引量 : 0次 | 上传用户:pingwuse
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数据库和Internet技术的发展与应用,大量的文本数据也随之产生。用户很难从这些文本数据中获取自己所需的有价值的信息。因此,文本挖掘在近几年倍受研究者的关注,是一项重要的研究课题。   文本挖掘处理的对象是以文本形式存储的信息,通过文本挖掘可以从海量的文本信息中提取有用的知识或潜在的规律。基于模糊聚类的文本挖掘利用模糊理论对文本进行挖掘,它对文本的划分是软划分,给出文本对每个类别的隶属程度,这种划分更能反应客观世界。   因此基于模糊聚类的文本挖掘方法成为了文本挖掘研究的重要方向。   本文首先介绍了文本挖掘的相关概念和文本挖掘的流程,研究了文本挖掘流程中常用的方法,主要包括文本预处理中的分词方法和文本模式提取中聚类和分类的常用方法,对文本挖掘的应用进行了总结。随后介绍了模糊聚类的相关理论,研究了模糊聚类的特点和流程,总结了模糊聚类的应用。   重点研究了几种常见的文本挖掘方法:贝叶斯文本挖掘方法、K-means 文本挖掘方法,K近邻文本挖掘方法和模糊c 均值文本挖掘方法,分析了它们的流程、特点以及存在的问题。   对这些方法在初始值的依赖和处理数据类型等方面的特点进行了比较和研究。   针对模糊c 均值文本挖掘方法对初始值较敏感和稳定性差的缺点,提出了一种改进的CGFCM 文本挖掘方法,CGFCM 方法首先利用遗传算法全局搜索的特点,求出初始聚类原型,之后引入类的概念向量,建立概念向量矩阵V,利用隶属函数和迭代概念向量矩阵V的进行模糊聚类,完成文本的模糊聚类。最后通过实例证明改进的文本挖掘方法在精度和稳定性上都有所提高。
其他文献
随着信息技术的发展,信息化对制造业企业的影响日益深入,已逐步由生产、管理等环节渗透到技术创新环节。信息化改变了制造业企业技术创新模式,重构了技术创新过程,成为制造业企业
自商业银行产生,信贷风险就与之相伴,形影不离。不论在何种宏观经济环境中,信贷风险始终是商业银行的最重要的风险之一,商业银行对信贷风险的识别能力、管理水平关系到银行的核心