论文部分内容阅读
偏序学习和排序学习在机器学习、信息检索领域受到广泛的关注,在统计学习理论的框架下,我们基于U-过程的理论,对偏序学习和排序学习进行推广性的分析。本文面向两个紧密相连的研究领域:一是U-过程的最大值集中不等式,二是学习算法的推广性能的界。集中不等式描述一个随机变量是否集中在某个数值(如数学期望)附近。在统计学习理论中,一个主要的数学工具就是集中不等式,经验过程的集中不等式广泛的应用在学习算法的收敛速率的研究中。而一些学习问题又可以归结到U-统计的表达形式。这样促使我们研究U-过程最大值的集中不等式。U-过程与经验过程紧既有区别又有联系,这种紧密的联系使我们自然地想到用来证明经验过程的熵方法也能够用来证明U-过程。区别是U-过程具有弱的相关结构,所以我们使用退耦的技巧来分解这种复杂的结构。在本文中我们的主要贡献和创新点如下:首先,我们给出了三种类型的集中不等式:·关于非退化核的集中不等式,·关于退化核的集中不等式,·关于相关随机变量的集中不等式。前两个是关于U-过程的,其实当我们把这种弱相关整体看成一个泛函时,这样仍然可以当做独立同分布的情形来证明,只是在证明过程中使用退耦不等式来分解这种非独立的结构。在证明第一个不等式时,我们分成了两步,先是证明非负核的U-过程的集中不等式,然后证明有界的核。我们使用非退化的不等式的研究了逐对损失的学习问题。第二个不等式的证明更复杂一些,我们证明的结果和经验过程有相同的结构。第三个是非独立的随机变量的泛函,可以看作是图上的数据,每一个随机变量是图的顶点,我们借助于分数覆盖的理论,把非独立的随机变量,分解成一些块的和,而每一块是独立同分布的随机变量之和,结合已有的结果和染色数的概念,我们就得到了非独立的集中不等式。此外,我们还推广了自有界函数的结构,定义了推广的自有界函数,并且给出了一个集中不等式。第二个是学习算法的推广性能的界。集中不等式和统计学习紧密的相连,二阶的U-过程是适用于逐对的损失的学习问题。在本文中我们主要集中于偏序学习和排序学习,采用两种分割假设空问的方法,一是基于相对风险的分割,二是基于方差的分割。采用我们新证明的不等式,应用到逐点损失学习,不同于已有的文献。在已有的结果中,作者采用了先把U-过程进行分解,然后分别用经验过程理论和退化的U-过程来界定。而我们的方法是统一的进行处理,然后再分解然后分别用Rademacher复杂度和Rademacher chaos复杂度来界定。这样做的好处是,对于基于U-过程的不同的经验风险最小化的学习问题,我们主要研究其损失函数的不同。我们分别提供了偏序学习的样本误差的上界和带惩罚的MP排序的风险的界。