论文部分内容阅读
作为组织和处理大量文本数据的关键技术,文本分类技术在有效解决了信息杂乱无章问题的同时,方便了用户准确的检索所需要的信息,在信息检索和过滤等方面具有很高的应用价值,逐渐成为人们研究的热点。特征选择作为文本分类技术的重要环节,通过对特征进行降维处理来提高分类器的效率和精度。由于类别和数据等层面的一些问题,特征选择方法面临着很多挑战。其中,不均衡数据的问题普遍存在于文本分类的应用领域。在不均衡数据集中,正类样本和负类样本数量相差悬殊,而大部分基于均衡数据集的传统机器学习算法在处理这类数据时,容易偏重于负类而忽略正类,从而使分类效果不理想。目前对于该类问题的研究集中在取样和算法两个层面。本文首先介绍了文本分类的概况和相关流程,包括预处理过程、特征选择和常用的分类算法等。随后,本文针对不均衡数据问题进行了深入的研究,并从特征选择层面上提出了解决的思路,在保证整体分类准确率前提下适当提高正类样本的分类准确率,结合类别区分度和平均词频因素,通过改进卡方统计量并与传统方法进行了多组对比实验。实验表明,改进后的卡方统计量在处理不均衡数据集问题时效果要优于传统的特征选择方法。同时,本文还对常用的特征权重计算方法进行了分析和研究,并在其基础上提出了TF-IDF与特征选择方法结合的改进方法,通过对不均衡语料集的分类实验,证明了我们提出的方法对于提高分类准确率是有效可行的。