论文部分内容阅读
文本挖掘已经成为一个重要的研究领域,研究由各种数据源组成的文本数据,帮助人们挖掘、分析文本内容,挖掘文本数据模式等。文本聚类是文本挖掘领域的重要任务之一,可以帮助企业或用户对文本进行归纳和总结。文本特征的高维稀疏性降低了文本聚类的性能,而有效的特征选择方法是提升文本聚类效果的关键环节。因此,本文主要研究文本聚类中的特征选择方法,并将其应用于电信行业客户投诉记录的聚类分析,具体研究内容如下:本文提出了一种基于文本聚类结果的特征选择方法(Feature Selection Method based on Cluster Result, FS-CR).该方法首先对原始文本语料库进行聚类,得到文本的初始聚类结果,然后将初始聚类结果作为类别标签,计算文本中全部特征的信息增益并排序,从中选出重要的特征,最后用选出的特征进行文本聚类,得到最终的聚类结果。本文将FS-CR特征选择方法同已有的文档频数,单词贡献度两种特征选择方法进行对比实验,用F-measure和特征压缩率来评价,实验结果表明本文方法用少量有效特征得到更高的F-measure值,说明了FS-CR特征选择方法的优越性。传统的权值计算方法只考虑了特征频数和文档频数,而文本数据中包含了大量的语义信息,因此本文引入了位置因子和段落同现因子,提出了一种基于文本语义信息和聚类结果的特征选择方法(Feature Selection Method based on Semantic Information and Cluster Result, FS-SI-CR) 。该方法将语义信息与FS-CR结合,使反映文本主题的特征权重得到加强,改善FS-CR特征选择方法的初始聚类效果,进而提高最终的文本聚类效果。本文将FS-SI-CR方法、FS-CR方法和基于语义的单词贡献度方法进行比较,对比实验表明FS-SI-CR特征选择方法优于其他两种方法。现有电信行业客户投诉数据是无类别标签信息的文本数据,该文本数据内容较短,本文引入的段落同现语义因子在投诉文本中修正为句子同现因子。首先提出了电信行业客户投诉文本挖掘框架,然后在此框架下将FS-SI-CR特征选择方法应用于电信行业客户投诉文本中,最终得到文本聚类结果。通过分析每一文本类别的特征,发现FS-SI-CR方法可以选出少量有效特征,同时这些特征可以很好地代表客户投诉问题,得到良好的聚类效果。根据聚类结果将同类客户投诉问题交由相关部门处理,可以提高处理效率降低人工成本,为电信企业管理者提供决策支持。