论文部分内容阅读
从大量繁杂的文本信息中获取有用的信息是信息处理的一大任务,而文本分类是实现这个任务的最重要的方法之一。特征选择和文本分类算法是文本分类的两个重要的研究方向,特征选择是为了选取最能表示文本内容的特征来对庞大的文本空间进行约减,既提高了文本分类的效率又可以通过去除噪音特征提高分类精度,而好的分类方法能够有效地提高分类的效果。本文针对现有特征选择算法没有利用有用的词条频率信息,没有定性分析的现状,提出了基于词条频率的改进特征选择算法,对特征选择算法进行了定性分析,提出了构造高效特征选择方法的约束条件和步骤,构造出一种高效的特征选择方法,并用实验证明了改进方法的有效性。