论文部分内容阅读
进入九十年代以来,互联网得到了极大的发展,产生了海量的非结构化和半结构化文本信息。如何对之进行有效的组织和管理,使用户能方便、准确地查找到所需要的信息,是信息处理的一大目标。基于人工智能技术的自动文本分类已成为信息处理的关键技术,它能根据文本的语义将大量的文本自动分类,有效地解决有关文本信息的组织、管理等关键问题。
文本分类的方法很多,典型的有朴素贝叶斯分类器、基于向量空间模型的分类器、基于实例的分类器和用支持向量机建立的分类器等,以及由几位学者提出的基于两步策略的高性能文本分类方法,主要是对中文两类文本、多类单标签文本分类。这就提出了两个问题:①能不能将两步分类策略从单标签分类问题推广到多标签 (兼类) 分类问题? 如果能,如何将它推广到多标签文本分类? ②能不能把两步策略应用到英文文本分类中去?
本文阐述了文本分类的关键技术,包括分类的一般过程、特征抽取、特征选择和分类方法等;重点描述、分析和对比了常用的特征选择算法和分类方法。提出了基于两步策略的三种多类多标签英文文本分类方法,1) 以贝叶斯为分类器,以抽取词根的单词和未抽词根的单词分别作为第一、第二步使用特征的两步方法:2) 以贝叶斯和决策树分别为第一、第二步使用分类器的两步方法:3) 以ID3、C4.5和贝叶斯的组合分类器对部分特定类别进行分类,然后对余下类别采用方法2进行二次分类的混合两步方法。在此基础上,还提出了一种优化算法,在Reuters-21578 语料上的实验表明,本文提出的方法具有较高的性能,三种方法中,方法3具有最好的性能。