论文部分内容阅读
随着互联网基础设施的逐步升级以及移动终端的快速普及,人们可以越来越方便地拍摄和观看视频。视频由于其本身所携带信息的丰富性和生动性,成为了人们生活中重要的信息传播载体之一。不断增长的海量视频数据也带来了如何识别、检索和理解视频内容的需求。如何降低视频内容理解难度,提炼出视频中的关键信息成为当前视频处理领域的重要研究课题。由于视频目标分割的研究目标是有效分割出具有显著性特征的前景目标,所以它在视频摘要、视频检索、动作分析和视频语义理解等领域拥有广泛的应用。当前的视频目标分割算法大多属于自底向上的方法,通过获取并分析视频中颜色和边缘特征、运动信息等底层特征分割出具有显著性特点的前景目标。传统基于人工标注的算法已经不能满足当前大规模视频数据环境下的应用需求。同时,海量视频中包含的场景和拍摄条件是复杂而多样的,使得当前的自动化视频目标分割算法并不能在一些复杂场景中仍保持较好的鲁棒性。针对上述问题,本文提出了两种适用于不同场景的视频目标自动分割算法。主要研究工作和创新点如下:1.现有基于图割的算法容易受到背景噪声和像素点失配的干扰,在一些复杂场景下鲁棒性不佳。本文提出了 一种基于光流场和图割的视频目标自动分割算法,针对上述问题做了改进。在对前景目标分割前,该算法预先对视频全局动作特征进行分析,获得了前景目标的先验知识,减少了背景噪声对算法的干扰。针对像素点失配问题,该算法提出了动态位置模型优化机制,利用前景目标的位置模型增强了分割结果的时域连续性。实验表明,该算法在镜头快速移动、前景目标运动特征不规律等场景下能够获得更加准确和鲁棒的分割结果。2.在一些复杂场景下,现有基到候选目标的算法往往会出现分割结果部分缺失的问题,这一问题的根源在于候选目标过于碎片化以及候选目标间的时域映射关系不够准确。本文提出了一种基于候选目标的改进算法。该算法对原生候选目标进行了时域扩展与合并,不仅改善了候选目标碎片化的问题,还提高了相邻帧间候选目标的时域连续性。为了进一步增强模型时域映射关系的准确性,该算法引入了更多图像特征用于度量模型的边权值。在多个基准数据集上的实验表明,相较于现有同类算法,该算法对背景噪声的抗噪能力更强,在背景环境复杂、水面倒影等场景中分割结果更加完整。