面向图像分类的融合优化方法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:cwzhq
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着多媒体技术的发展,数码拍摄设备走进了千家万户,高质量数码图片呈指数型增长的趋势。人们总是希望能够按照图像的内容(语义)进行管理,因此按照语义进行图像分类对于图片数据库的索引以及检索来说变得越来越重要。  然而在图像的像素信息与语义之间存在巨大的语义鸿沟,对图像进行分类是一个巨大的挑战。由于不同类别图像的视觉差异表现不同,因此,对每一个类别需要使用不同的信息来进行判别。图像中存在颜色、纹理、形状等信息,如何自动地将这些信息融合起来,使之能够表示该类图像,从而提高图像分类系统的性能是一个重要的研究方向。  本论文主要研究融合方法。在图像分类应用中,融合方法主要分为两类:决策层融合以及特征层融合。决策层的融合方法首先对图像提取出多种特征,并对每一种特征使用分类器进行分类,最后通过分类器融合算法融合各个分类器的输出。这种方法能够灵活地融合多个特征,缺点是子分类器的输出信息少,当输出存在噪声时容易对融合算法产生干扰。特征层的融合方法将多个特征通过融合策略融合为单一图像特征,并使用某种分类器进行分类。这种方法的输入信息较多,但容易受到样本不均衡的影响。本论文对这两种融合方法分别进行了研究,主要研究内容包含以下四方面。  (1)研究了分类器决策的线性加权融合问题。在最大间隔分类器的启发下,本文提出基于最大间隔思想的的分类器权重学习算法:通过最大化分类器输出所组成向量与原点的距离来训练权重。为获得分类器性能与分类速度的平衡,本文研究了分类器的选择问题,并提出了一个基于贪心算法的分类器选择框架,根据分类器性能与分类速度权衡的偏好设计了两种分类器选择算法。实验结果表明,基于最大间隔的多分类器权重训练算法能够有效地获得最优权重并融合分类器的输出。  (2)将分类器的决策的线性组合扩展到非线性,研究了基于Sugeno与Choqu-et模糊积分下的分类器融合算法。模糊积分的核心问题为通过训练数据来确定各个分类器的模糊密度,其中最小分类错误准则(Minimal Classification Error, MCE)为较常用的优化目标。本文指出了在小样本数据集情况下以MCE作为优化目标函数时,在子分类器输出存在误差较大时容易导致过拟合的现象,并分析了造成该现象的原因。在此基础上,本文设计了基于决策扰动的MCE优化目标准则,其核心思想为最大化子分类器输出的判别区域。针对该准则提出了基于遗传算法的优化方法。实验证明,基于决策扰动的MCE优化目标在小样本训练数据集下性能提升明显。  (3)研究了基于理想核函数对齐的多核函数权重融合方法。本文详细地分析了多核融合过程中不平衡数据集以及核函数变换给多核函数权重融合方法造成的影响,并提出了基于理想核函数对齐的核函数权重学习算法。本文首先提出了理想核函数的概念,阐明了核函数归一化对于多核函数权重学习算法的重要性以及核函数归一化的性质与方法。经过对核函数的归一化后,将核函数与其理想形式对齐,通过最小化实际核函数与其理想核函数的对齐损失来学习核函数的权重,最终推导出二次规划问题的形式。在优化过程中,方法考虑了类别不均衡给核函数带来的影响。实验证明了通过核归一化以及类别不均衡处理方法,理想核函数对齐的多核函数权重学习算法性能接近最优的权重组合方法,训练速度提升明显。  (4)研究了传统的图像到类别距离度量函数在不平衡数据集中的不足,并提出了概率随机采样图像到类别的距离度量函数。该函数可以有效地解决样本不均衡问题带来的影响以及融合多种图像特征。本文首先指出了在类别不均衡的情况下,传统的图像到类别的距离不具备可比较性,因此当它应用于分类系统时,会造成系统性能严重下降。本文研究了造成该现象的原因,并提出随机采样图像到类别距离度量函数。本文提出了该函数的近似计算方法。随机采样距离可以有效地表示类别不均衡数据集的特征,在不均衡数据集下得到了优异的性能。实验结果表明,在各种测试指标上,随机采样图像到类别距离在不平衡数据集上取得较优异的结果。
其他文献
网络基础设施的建设和视频编码技术的发展,催生了一系列的视频应用,包括视频电话、网络视频点播、高清电视广播等等。为了使视频编码的码流更好地适应各种网络环境和用户终端
信息时代的来临,使网络来到我们每个人的身边。而病毒、蠕虫、木马等恶意代码,也随着网络经济的蓬勃而迅猛发展。网络安全和人身安全对网民而言一样重要。恶意代码检测系统使
随着服务系统在现代服务业中的广泛应用,服务质量问题引起了人们越来越多地关注,服务质量监控与评价方法成了服务学研究的一个重点内容。服务质量功能展开(SQFD)是覆盖服务系
网络环境下说话人识别是指在互联网音频信息中查找出目标说话人的一种技术,在安全、刑侦等领域具有重要的实际应用价值。本文以搭建工程化的网络环境下说话人识别系统为目的,
随着互联网的发展,使用搜索引擎进行信息查找已经成为人们日常生活的一部分。人们只需要输入查询关键词,搜索引擎就可以将互联网上最匹配的网页链接返回给用户。但是搜索引擎
脑卒中为中老年人常见病和多发病,该病发病率高、致残率高、病死率高、治愈率低。在我国,每年大约有200万新发脑卒中病人,因脑卒中死亡人数约达150万人。存活者75%以上留有不
随着信息技术的飞速发展,桌面计算机系统已经广泛的应用于家庭、公司、政府机关与军队中。桌面计算机系统保存了越来越多对个人和公司具有不可估量价值的数据。但是通用操作
top-k join查询返回用户最感兴趣的k个连接结果。近来top-k join已经成为一个重要的研究课题,其在Web数据库,信息抽取和数据挖掘中均有应用。星型模式的数据仓库在实际应用中
在大规模程序中存在许多隐式编程规则,它们表达了程序的内在特性和特定需求;如果程序员忘记或者未意识到这些规则,那么就很容易将缺陷引入程序。隐式编程规则形态多样,可能包
随着各组织间数据交换的与日俱增,作为Web上数据存储和交换格式事实标准的XML变得越来越重要,但是不正确数据、不一致数据、不精确数据等XML中的劣质数据给XML上的有效查询处