论文部分内容阅读
我们已经知道基于VC(Vapnik-Chenronenkis)维及其推广FS(Fat-Shattering)维的统计学习理论以及在此理论基础上构造的通用学习机器——支持向量机(SVMs)的关技术.由于其强大的功能和优良的特性,近几年来SVMs技术已经广泛应用于文本分类,图像识别,生物信息学等领域.尽管如此,基于VC维的学习理论仍然存在不足.主要表现为有关推广能力的界可能太大甚至不切实际:在算法的某些实现中表现为收敛速度慢,所需训练样本大,错误率高等缺陷.因此,寻找能够更为精确地描述推广性能和算法复杂性的参数就显得很有意义.
近几年来,人们在这一方面的探索取得了一定的成果.其中基于Banach空间局部理论的e-范数为研究学习问题的的推广性能提供了一个表现良好的参数.已经证明如果Banach空间的对偶单位球的经验e-范数是有界的,那么它的对称凸包具有一个有着较小直径的k阶余维的部分.而且决定该部分的泛函可以经验的算出.依据经验数据寻求所期望的依赖关系的学习问题可以归结为解一个线性方程组的问题.本文在此基础上利用Banach空间的几何结构进一步研究了学习问题的推广性能,给出了统计量复杂性(Statistic Complexity)的概念及其界的估计.本文的主要内容安排如下:
第一章:引言.主要介绍学习问题的背景和研究方法以及本文的主要结果.
第二章:介绍基于VC维及其推广FS维的统计学习理论.主要包括学习问题收敛性的定性分析和定量分析以及SVMs的思想和方法.
第三章:介绍Banach空间和e-范数的有关理论.回顾了Banach空间,e-范数。覆盖数及其与e-范数的关系,VC维与e-范数的关系等后面将要用到的基本概念和重要结论.
第四章:基于前面几章所提得到的已有结果,我们首先给出了基于经验e-范数的样本误差的界.然后依据Banach空间中称为Gauss型的几何特性,我们又得到了基于Gauss型的样本误差的界及样本复杂性估计.最后.在Pojor和Tomczak Jaegermann的一个重要结论的基础上我们总结了基于e-范数求解学习问题的方法.
第五章:这一章主要研究了基于e-范数求解学习问题的算法复杂性.我们把为了达到一定的精度所需构造的经验泛函的最小个数定义为假设空间的统计量复杂性.利用e-范数估计了FS维具有多项式增长级的函数集的统计量复杂性.
据此可以找到一个基数性为统计量复杂性的线性经验泛函集,利用该线性经验泛函集可以构造以所需的任意精度逼近未知函数的学习算法.同时,给出了随机生成这些经验泛函的方法.
第六章:总结与评述.以Hilbert空间为例对本文所涉及的学习算法作出总结,并且提出了有待进一步解决的问题.