论文部分内容阅读
在文本分类问题的研究中,高维度的特征表示空间会严重影响文本分类的效率,特征降维是文本分类问题中重要并且关键的一步。目前特征降维的方法已经基本成熟,从特征抽取与特征选择两个方向都能取得较好的效果。传统的特征选择方法都存在一个前提假设,即训练集与测试集中特征词服从相同的分布概率。然而在实验中可以发现在文本数据集中,训练集与测试集特征词的分布情况存在着一定的差异,并且这种差异会影响到文本分类的准确率。随着信息化技术的迅速发展与深度应用,文本作为信息的一个重要载体,涉及的内容与种类更新变化的速度也越来越快,因此文本数据常呈现动态特性,本文将这种文本数据称为动态文本数据。在动态文本数据集中,训练集与测试集中特征词的分布差异会更加明显,进而更严重地影响到文本分类的准确率。针对上述问题,本文工作的主要目的是为了找出有效的方法,以尽量消除这种差异性。首先采用风险决策方法,将特征词的选择看作是一个决策问题,从而提高算法的分类结果。此外,本文还从迁移学习的角度,探索减少或者消除这种差异性的途径。本文的主要研究内容总结如下:(1)提出基于风险决策的特征选择方法。随着人工智能的发展、知识库的形成,使得根据新信息实时乃至自动修改决策策略成为可能。本文正是基于这一理念,将风险决策方法应用到动态文本分类问题中,在特征选择时不再考虑特征词与文本类别的关联信息,而是直接采用效用函数去评价每个特征词对分类结果的贡献程度,选出一部分贡献最大的特征词组成特征词典以达到降维的目的。本文在中文邮件数据集和中文网页数据集上检查了算法的有效性,并在英文网页数据集上检查了算法的鲁棒性。实验结果表明,基于风险决策的特征选择方法可以选取出对分类结果影响更大的特征词,使文本分类的各项指标明显提高。(2)提出基于迁移学习的特征选择方法。迁移学习方法非常适合解决本文中所提出的问题,然而基于机器学习的迁移学习方法在本世纪初才开始被广泛关注,目前常用的迁移学习算法大体分为实例的迁移、特征表示的迁移、模型迁移和关联知识的迁移,但是在文本特征选择问题中仍没有一个较为合适的迁移学习算法。因此本文首先对迁移学习中比较有代表性的算法进行简单介绍,其次针对文本中特征选择问题提出改进的方法,并进行了实验验证。本文的工作思路是通过实验来发现问题,对实验结果进行深度的剖析找到改进结果的方向,并尝试从不同的角度解决问题。提出的基于风险决策和迁移量的特征选择方法,可以很好地避免传统特征选择算法中出现的问题,使得文本分类中的评价指标都有一定提高。本文的研究成果对支持向量机应用范围的拓展具有重要的意义。