论文部分内容阅读
人类的大部分信息都是通过视觉系统来获取的,所以关于视觉的研究成为探索人工智能的一个重要方向,它主要包括两大领域:生物视觉和计算机视觉。前者主要通过各种实验,来探索人类视觉系统的脑机制,理清视觉信息处理流程,以及每一步的功能特性;后者则希望借助于神经生物学上的研究成果,构建高效的物体检测和识别系统,从而服务于工业、农业、医疗、军事等各个领域。本文主要从计算机视觉的角度出发,研究如何利用现有的神经生物学上对视觉皮层网络的研究成果,构建视觉计算模型,提出相应的实现算法,并将这些方法应用于图像去噪、物体检测、物体识别以及场景分类等问题。本文的主要工作和创新点包括以下几个方面:1.一个完整的分层模型,一般都包含三个层次:信息表象层、局部特征群组层和整体特征层。本文在局部特征组合时引入任务相关的概念,即对于一个特定的识别任务,并不是所有的组合可能都是有效的,事实上有些组合特征虽然存在,但是对于某个任务在分类上并没有贡献,因此仅需考虑那些对分类问题有效的组合特征,我们将其定义为任务相关的局部组合特征,采用这种方法,可以大大减少局部特征的数量,在基本不降低识别效果的前提下显著的提高了计算效率。2.传统的LDA(Latent Dirichlet Allocation)算法起源于文本分析,而作为一种非常有效的特征提取方法,它在计算机视觉领域也有广泛的应用前景,特别是它为我们基于统计方法构建分层视觉模型提供了一种思路。但在两者的结合上一直有一个障碍,这就是传统LDA的基本单元“单词”是离散变量,而视觉信号一般被认为是连续变量。针对这个问题,本文大胆创新,将传统LDA模型的基本单元推广到连续变量,并与稀疏编码相结合提出了SCLDA(SparseCoding LDA)算法,该算法在解决场景分类和多类物体识别上取得了不错的效果。3.提出了一个卷积受限波尔兹曼机(Convolutional Restricted Boltz-mann Machines简称CRBM),它的可见层和隐含层都是服从高斯分布的连续随机变量,而一些传统的波尔兹曼机都是基于二值变量的。并且推导了相应的基于相对散度(contrastive divergence)的学习算法。在对隐含层变量加上稀疏性约束的前提下,通过对自然图像训练样本的学习,可以得到类似V1区简单细胞感受野的连接权值。一个经过训练的CRBM实际上相当于定义了一类图像的先验分布,基于这个先验分布我们设计了一个统计模型来描述被噪声污染的图像,从而推导出一种新型的快速去噪算法,该算法可以实时的对大图像进行去噪,而且去噪性能与目前最成功的一些算法接近。以上几项工作都是基于人脑视皮层网络的结构来设计提取物体整体特征的计算模型,本研究在给出模型框架的同时还给出了具体的实现算法,并针对各种应用问题进行了仿真实验。