论文部分内容阅读
互联网的普及和高速发展,使得网络上的电子文档迅速增加,但是给用户带来大量信息的同时,使得用户查找、过滤和管理这些海量信息非常困难。因此,文本分类技术的研究引起了人们的持续关注。文本分类大致分为5个流程:文本预处理、特征降维、特征加权、分类器训练和分类器性能评估。一个文本集在文本预处理中经过分词、去除停用词后,得到了文本集的原始特征词集合,之后进行特征降维,选出对文本类别区分能力较强的特征词,继而利用特征加权公式计算降维之后各个特征词的权重,根据向量空间模型(VSM)将文本表示成由一定数量特征词构成的空间向量,然后进行分类器训练得到分类器,最后利用相关的指标对分类器性能进行评估。其中,特征降维在文本分类过程中具有非常重要的作用,利用好的特征降维方法来降低向量空间的维数,不仅能提高分类器的速度,节省存储空间,还能过滤掉一些无关属性,从而减少无关信息对文本分类的干扰,提高文本分类的精度。根据产生新特征词方式的不同,特征降维可分为特征选择和特征抽取。常用的特征选择方法有:文档频率(DF)、互信息(MI)、信息增益(IG)、X~2统计量(CHI)、文本证据权(WET)、优势率(OR)和多种方法的组合等。这些特征选择方法的基本思想是使用某种评估函数对每个特征词打分,然后把特征词按照分值从高到低排序,取分值排前的一些特征词组成降维后的特征集合。本文详细分析了常用的特征选择方法,发现这些方法要么没有考虑词频,在一定程度上倾向于选择稀有特征词,要么没有考虑特征词与类别的关系。针对这些方法的不足本文提出了一种新的特征选择方法,该方法结合了文本类间集中度、文本类内分散度和词频类间集中度来计算特征词在每个类别的评估函数值,并利用其最大值与次大值之差作为特征词的最终评价函数值。本实验将文档频、互信息、信息增益和X~2统计量与提出的方法进行比较,然后用查全率、查准率和F1值来评价分类的效果。新的特征选择方法不仅考虑了词频、特征词与类别的关系,而且计算复杂度更小,因此,特征降维效果更优。同时由于MI和X~2统计量在求取全局评估函数值也可以采用最大值与次大值之差的形式,因此在实验中验证了这种全局评估函数在MI和X~2统计量中的有效性。