论文部分内容阅读
场景解析是计算机视觉领域中的一项重要而具有挑战性的工作,研究的主要内容是为图像中的每个像素标记一个类别标签,在自动驾驶、机器人导航、环境监测、基于内容的图像搜索等多个领域具有广泛的应用。场景解析通常包括图像分割、目标类别检测、以及图像多标签识别问题等,在早期的计算机视觉研究中,这些问题已经被提出,虽然许多研究人员对这些问题展开研究,但是至今没有得到较好的解决。场景解析的难点是获得图像中具有较强表达力的语义特征以及提高图像小目标(占有较少像素)的识别率。本文针对这两方面的问题,提出了基于多特征和样例SVM的场景解析方法。首先,本文在训练集图像中计算与查询图像最相似(场景相似、空间布局相似和目标相似)的图像,由这些图像构成检索集,因此检索集中的图像数量小于训练集中的图像数量。使得查询图像中每个像素的类标签就被限定为检索集图像中像素的类标签,从而减少算法的计算量。其次,基于深度卷积特征与传统的浅层SIFT和GIST特征相结合的方式构建图像全局和局部的像素分类特征,并在超像素级对查询图像与检索集图像进行匹配,从而获得查询图像中超像素的分类似然值,取最大似然值作为超像素的标注。最后,结合支持向量机(SVM)对每个样例进行分类,并且使用马尔科夫随机场(MRF)能量函数作为目标函数。为了最小化能量函数并执行上下文推理,在MRF能量函数中将数据项和平滑项结合,微调查询图像中超像素的类标签,得到最终的图像解析结果。本文将提出的算法在公开的SIFT Flow数据集上进行实验,实验结果表明本文提出的基于多特征和样例SVM的场景解析方法具有较高的识别率。此外,把本文提出的算法应用到已采集真实的视频图像中,取得了良好的效果,从而验证了本文提出方法的有效性。