面向文本聚类的特征选择方法及应用研究

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:darklbueyz
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本挖掘已经成为一个重要的研究领域,研究由各种数据源组成的文本数据,帮助人们挖掘、分析文本内容,挖掘文本数据模式等。文本聚类是文本挖掘领域的重要任务之一,可以帮助企业或用户对文本进行归纳和总结。文本特征的高维稀疏性降低了文本聚类的性能,而有效的特征选择方法是提升文本聚类效果的关键环节。因此,本文主要研究文本聚类中的特征选择方法,并将其应用于电信行业客户投诉记录的聚类分析,具体研究内容如下:本文提出了一种基于文本聚类结果的特征选择方法(Feature Selection Method based on Cluster Result, FS-CR).该方法首先对原始文本语料库进行聚类,得到文本的初始聚类结果,然后将初始聚类结果作为类别标签,计算文本中全部特征的信息增益并排序,从中选出重要的特征,最后用选出的特征进行文本聚类,得到最终的聚类结果。本文将FS-CR特征选择方法同已有的文档频数,单词贡献度两种特征选择方法进行对比实验,用F-measure和特征压缩率来评价,实验结果表明本文方法用少量有效特征得到更高的F-measure值,说明了FS-CR特征选择方法的优越性。传统的权值计算方法只考虑了特征频数和文档频数,而文本数据中包含了大量的语义信息,因此本文引入了位置因子和段落同现因子,提出了一种基于文本语义信息和聚类结果的特征选择方法(Feature Selection Method based on Semantic Information and Cluster Result, FS-SI-CR) 。该方法将语义信息与FS-CR结合,使反映文本主题的特征权重得到加强,改善FS-CR特征选择方法的初始聚类效果,进而提高最终的文本聚类效果。本文将FS-SI-CR方法、FS-CR方法和基于语义的单词贡献度方法进行比较,对比实验表明FS-SI-CR特征选择方法优于其他两种方法。现有电信行业客户投诉数据是无类别标签信息的文本数据,该文本数据内容较短,本文引入的段落同现语义因子在投诉文本中修正为句子同现因子。首先提出了电信行业客户投诉文本挖掘框架,然后在此框架下将FS-SI-CR特征选择方法应用于电信行业客户投诉文本中,最终得到文本聚类结果。通过分析每一文本类别的特征,发现FS-SI-CR方法可以选出少量有效特征,同时这些特征可以很好地代表客户投诉问题,得到良好的聚类效果。根据聚类结果将同类客户投诉问题交由相关部门处理,可以提高处理效率降低人工成本,为电信企业管理者提供决策支持。
其他文献
素质教育、新课改的背景下,有效课堂的构建成为大家关注的焦点话题.基于数学学科的特殊性,数学学习和训练时学生容易出错.有效教学,首先应减少出错率.文章基于这个课题的背景
随着网络热潮的再次兴起以及互联网技术和应用的迅猛发展,网站运营经历几次大起大落,然而从2003年以来我国电子商务走出低迷,风险投资机构纷纷将资本注入我国的网络平台。许
海上搜救作为现代海上安全规划的一个重要组成部分,正在越来越被人们所关注。如何科学有效地进行海上搜救模拟训练,提高海上搜救能力和水平,是当前海上安全规划的主要任务。系统
随着新课改不断地深化,现代教学更加注重优质课堂教学的质量,以此来提升教学的效率和提高学生的综合素质.因此,在小学数学教学中,教师应积极优化和更新教学教法,通过耐心的引
在当前的小学数学教学课堂中,需要注重学生的综合素质能力需要,有目的性地施行学科素养的教学模式.在这一教学目的下,需要解决初中课堂教学的方法选择上的问题,寻找最适宜的
随着社会科学技术的迅速发展对学校学生档案管理的建设也应该及时创新,现代社会数字化信息越来越发达,对高校学生档案数字化建设也是必然趋势.建立学生档案对高校的建设与发
良好的学习习惯能够影响学生的一生.而小学阶段,是培养学生良好习惯的关键时期.在实际教学中,学生产生的学习问题,大部分都是由不良的学习习惯导致的.因此,培养良好的学习习
数学中的“小马虎”很多,“小马虎”接受能力尚可,但是做题、审题不认真,考测、练习时,容易出错,影响分数.文章结合教学实践,根据“小马虎”的主要特点,提出针对性的指导对策