论文部分内容阅读
随着网络上文本信息爆炸式的增长,文本分类已成为非常重要的研究方向。为了面对时代的挑战,本文针对文本分类问题进行了深入的研究,取得了一系列突破性进展。
本文在研究了现有分类模型的基础上,提出了文本分类的信息论模型。该模型以信息论为基础,将文本所提供的关于各个不同类别的信息作为分类的依据。文本分类的信息论模型从另一个的角度来思考文本分类问题,具有一定的理论价值。同时,该模型统一了传统的朴素贝叶斯法和基于KL距离的中心向量法两种不同的分类模型,为研究统一的分类算法奠定了基础。而且,该模型在各种不同的语料库上都表现出了非常高的分类性能。
根据文本分类信息论模型的基本思想,以互信息最大化原则为指导,本文提出了一种新的特征选择算法和两种特征聚类算法。并从实验上证实了该特征选择算法优于传统的特征选择算法。在保证分类准确率降低不到2%的条件下,特征聚类算法可以将文本特征空间的维数降低2~3个数量级,大大降低了文本特征的数量。
为了进一步推广文本分类的信息论模型,本文基于广义信息论模型的基本理论,提出了文本分类的广义信息论模型。该模型为文本空间中的各个特征赋予不同的权重,区分重要的特征和不重要的特征。不同于特征的其它属性,特征的权重无法通过公式直接计算得到。为了计算特征的权重,本文从不同的角度提出了两种权重学习算法——基于错误驱动的特征权重学习算法和基于免疫进化的特征权重学习算法,并且从实验上验证了这两种算法的有效性。