论文部分内容阅读
目前,图像和视频正成为多媒体的主要表现形式,如何有效地从大规模图像库中快速检索出用户真正需要的图像,已成为实际生活中急需解决的问题。传统的CBIR技术多通过分析图像视觉特征的相似性来检索图像,如图像的颜色、形状、纹理特征及对象之间的空间关系等。然而,人们判断图像的相似性并非仅仅建立在图像视觉特征的相似性上,更重要的是图像所包含的语义相似性。为更好地使计算机满足人们对图像信息的理解,缩短计算机视觉与用户之间的“语义鸿沟”,本文在图像感兴趣区域提取的基础上,重点研究了图像语义的获取方法,并将其研究成果应用于图像的语义检索中,开发了一个语义检索原型系统ISR ( Image Semantic Retrieval )。本文的主要研究内容如下:(1)针对传统方法对一般目标图像感兴趣区域提取的困难性,结合生物视觉注意机制,提出了一种新的感兴趣区域提取方法。首先利用Itti等人的自底向上、显著图方式的注意模型提取注意焦点后,提出依据显著图的整体效应原则和中心偏好原则对其进行筛选,最后根据目标物具有的空间邻近性和属性相似性特征,在特征显著图的基础上通过区域生长自动获取图像中的感兴趣目标物。实验表明,该方法能有效地提取出不同复杂背景下不同类型的感兴趣目标物,且对噪声具有很好的鲁棒性。(2)在感兴趣目标物提取的基础上,提出了一种结合视觉注意与大脑目标认知的图像自动分类计算模型框架。首先利用感兴趣区域提取算法从图像中提取出感兴趣的目标物体,并针对生物视觉系统相对目前计算机视觉的优越性,模拟大脑视觉皮质对事物的认知过程,通过层次模型在感兴趣目标物上获取能有效描述目标物,且对尺度和方向具有不变性的C2特征,最后采用标准分类器(支持向量机和k-最邻近算法)对其进行分类,从而获取图像语义。实验表明,该框架能有效对图像进行分类,用支持向量机进行分类的平均正确率高达96.65%;与直接从图像中提取C2特征相比,ROI-C2特征具有更好的分类性能,且只需少量样本即可。(3)针对图像的复杂度,利用多示例多标记学习获取图像多语义的信息,并提出了两种新的多示例多标记学习算法EMDD-SVM和EMDD-KNN。该算法首先将图像多示例多标记问题转化成多示例问题,采用EMDD算法求取其各个分类标记的示例原型用以代表该类图像,然后利用最小的带权Hausdorff距离计算样本与原型之间的距离,将其转换到包的特征空间,进而将问题转换成多标记学习问题,最后分别采用MLSVM和MLKNN对其进行分类。实验结果表明,该学习框架能有效对图像进行多语义分类,EMDD-SVM算法分类效果好于MIMLBoost算法和MIMLSVM算法。(4)为进一步验证本文语义获取研究方法的有效性和实用性,将图像语义获取的研究成果应用于图像检索中,在分析系统结构及关键技术实现的基础上,开发了图像语义检索原型系统ISR。实验结果表明,该原型系统能有效地实现图像单语义和多语义查询,具有较高的实用价值。