论文部分内容阅读
随着Internet上文档信息的迅猛发展,文本自动分类成为处理和组织大量文档数据的关键技术。本文在已有研究的基础上对中文文本分类进行了分析研究。由于χ2统计量能很好地体现特征和类别之间的相关性,因此成为特征选择中常用的评估函数。本文分析了χ2统计量在特征选择和分类决策阶段的性质,提出了一种新的基于χ2统计量的文档CHI定义以及基于文档CHI的文本相似度计算公式,建立了一个适合中文文本分类的向量空间模型。常见的文本分类方法中,类中心向量法计算量小,算法简单,但分类性能较差;kNN算法分类准确率较高,但计算量大。本文结合两种算法的优点,在kNN算法中引入快速搜索机制,利用类中心向量法对待分类文档进行初次类别判定,确定kNN算法中二次搜索的文档类别范围,利用此类别范围的训练集对待分类文档进行二次类别判定,从而确定文本的最终类别。实验结果表明基于文档CHI向量和二次类别判定机制的改进kNN文本分类算法能大大减少kNN算法的分类时间,并提高kNN算法的准确率和召回率。