论文部分内容阅读
数据挖掘已经是一个发展很成熟的研究领域,它给人们提供了一个从大量杂乱无章的信息中获取有用价值信息的方法。目前,对于非结构化数据的数据挖掘技术已有很多研究,而对于网络中出现的越来越多的文本数据的挖掘技术研究还较少。文本中包含着丰富的内涵和知识,如何对大量的文本数据进行挖掘也是一个很重要的研究领域。文本分类是文本挖掘最基础的应用,是分析和处理大量文本数据的关键技术,它可以有效地解决大数据时代信息多而杂的问题,帮助人们准确高效的定位信息和分流信息,因此具有广泛的应用前景。本文对中文文本挖掘技术进行了研究,提出了一种新的基于特征义原扩展向量空间模型的文本分类方法,并实现分类器对分类方法进行验证。本文主要研究内容如下:1.介绍了文本挖掘技术的原理和实现方法。作为文本挖掘的基础,首先介绍了文本预处理流程,给出了预处理过程的具体步骤,包括:文本表示、中文分词技术、特征提取和特征权值计算方法,及各个步骤采用的相关算法。然后,介绍了多种常用的文本分类方法,详述了各种方法的技术原理以及优缺点。2.提出了一种基于特征义原扩展向量空间模型(VSM)的文本分类方法。本文根据知网中的“义原”,改进了文本的特征选择方法,重构向量空间模型。首先对每个类别中的文本采用改进的TF-IDF方法选择文本特征项,然后再从特征项中提取其中包含的特征义原,最后再对特征义原进行扩展,得到扩展后的特征项,生成该类别的义原文档。最后通过对生成的义原文档进行运算,得到每个特征义原的权值。3.本文还介绍了原始向量空间模型(VSM)和同义词向量空间模型(VSM)。原始VSM,即采用原始特征选择方法得到的VSM;同义词VSM,指特征选择经过同义词表处理后的VSM。为了结合不同VSM的优势,将三者融合,融合后的结果作为文本的特征项选择空间,得到重构的VSM模型,用来实现文本分类。4.进行实验验证了基于扩展VSM的分类方法。本文通过采用不同特征选择方法进行实验,得到分类结果的准确率和召回率,并与本文中给出的扩展VSM方法的实验结果进行比较分析。结果表明,本文方法能够提高特征项选择的准确性,使文本分类的正确率和稳定性均得到提高,是一个有效的文本分类方法。