论文部分内容阅读
在文本自动分类领域,传统的文本分类方法需要大量的已标注文本,学习器通过对已标注训练文本的学习以建立分类模型用于对未知文本进行分类。但是人工获得大量的已标注训练文本的成本代价高,制约了整个分类系统的构建,“标注瓶颈”问题日益显著。增量文本分类技术能够在小规模初始已标注样本集信息不足的情况下,充分学习利用大量易得的未标注训练样本。而高维度的中文文本信息的处理对已有的特征选择算法与分类器的有效契合提出了严峻挑战,迫切需要能对特征选择算法进行高效利用。在增量文本分类领域,特征选择策略的研究显得尤为重要。本文在动态特征选择策略与增量学习技术的结合方面开展了研究。
目前的增量学习方法在进行特征选择时,一般没有考虑不同内容、不同数量的新增训练样本所蕴含的有用信息量对于提高分类器学习性能的贡献大小的区别。面对大规模、高维度的待处理中文文本,本文提出了一种考虑动态特征选择的增量文本分类方法,并基于增量贝叶斯分类模型进行了实验验证。这种基于如何高效利用新增未标注训练集有用信息的策略,其关键点在于并非每次增量学习后都进行特征选择,而是在每次增量学习后对是否值得进行特征选择作评估,以确定特征选择的“时机”。
本文使用两种评估新增文本信息的方法以支持动态特征选择策略。一种方法首先将增量学习过程中的特征集分为三部分:每次特征选择后产生的实际用于构造分类器的有效特征空间部分和可能用于构造分类器的候选特征空间部分;相邻两次特征选择间的新增特征集部分。以特征选择的计算代价为出发点,通过计算相邻两次特征选择间不同特征集的累积信息熵值变化量决定当次增量学习是否进行特征选择。当信息改变量达到适当阈值要求时,认为“值得”进行一次特征选择,并重新构造分类器;否则,每次迭代后只修改三个特征集中统计参数。此外,另一种方法基于动态特征选择策略原理,用最优文本数作为判断依据,认为当两次特征选择间进行若干次增量学习后执行一次特征选择是可接受的。文章最后分别对基于动态特征选择策略的两种判断准则进行了仿真实验,验证了本文方法在保证原有分类精度的前提下提高了分类效率。