论文部分内容阅读
随着信息社会的发展,互联网上的信息爆炸式增长,其中百分之七十是文本信息的形式,如何有效的管理这些芜杂的文本信息,快速准确的找到用户需要的信息,这是一个重要的研究领域。而文本分类作为组织和处理海量文本数据的关键技术,可以帮助用户快速的获取需要的信息。本文先介绍了现有文本分类的问题,做特征抽取的原因。和积网络(Sum-Product Networks)是近几年提出一种深度概率模型,通过大量多层次的隐层节点表示输入数据中的抽象信息和全局信息。本文提出了一种基于和积网络的特征抽取的方法,从数据中无监督学习SPN并使用所学到的SPN隐层节点作为新特征,在分类实验上取得了比使用原特征更加好的效果。最后本文进行了详尽的实验对比和分析。本文的主要工作集中在以下几个方面: 1.为了更好的利用SPN进行特征提取,本文提出对SPN结构学习的改进算法。通过本文提出的节点合并,枝叶修剪,限制sum子节点的个数和分布离散化等方法,学习得到一个更加好的SPN结构。由于特征过于冗杂会产生过拟合等问题,对此本文提出了结构合并算法,通过节点合并对SPN结构进行优化,将网络上相近的节点和子网络进行自底向上的合并,从而得到一个紧凑的SPN。本文提出了枝叶修剪方法,去掉类别辨别力较差的子SPN或者节点,得到更加好的特征表示。为了得到更加多的抽象信息,本文提出了限制sum子节点的个数的方法,从而学到一个更加深度的表示,具有更加强的表达力。相比原SPN结构,使用改进的SPN结构生成的新特征,会在分类精度上有一定的提高。本文还提出了三种不同的参数学习方法,并且学到了更加好的分类特征值。此外本文还进行了判别式SPN的学习,该方法可以直接对数据进行分类。 2.本文提出了多种新的基于SPN的特征生成算法。本文使用经过改进算法学到的SPN结构,提出三种不同的选取非终结点的方法作为新的特征。每个新生成的特征代表原始输入数据部分变量的联合概率分布,从而对数据进行新的表示。本文还对新生成的特征进行归一化分析和特征选择,新生成的特征具有更加强的类别辨别力。 3.本文做了详细的实验分析。本文在二十一个数据集上,各比例的特征数量下,发现新得到的特征集合取得了比原特征集合更加好的分类精度。新生成的特征的平均类别辨别力,远大于原特征的平均类别辨别力。