论文部分内容阅读
人类视觉系统可以利用有限的视觉资源高效的处理大规模的输入信息,这得益于视觉系统的选择注意机制。选择注意机制使人类视觉系统可以快速而又精确的选择出视觉场景中的重要信息进行进一步的精细处理,而过滤掉不重要的冗余信息,使视觉系统可以实时的理解复杂的外部场景。为了使计算机视觉系统也能够获得这种自动选择重要信息的能力,计算机视觉领域的研究人员对自下而上的显著性检测进行了大量的研究,并逐渐形成两类不同的显著性检测方法——以模拟人的眼动行为为目标的关注点级显著性检测方法和以突出整个显著物体为目标的对象级显著性检测方法。本文的主要研究对象是对象级显著性检测方法,既包括静态图像的对象级显著性检测方法,也包括视频的对象级显著性检测方法。
由于缺少高层知识的指导,对象级显著性检测方法通常依赖于基于显著区域的特点而提出的一些假设。在众多假设中,应用最广泛的是对比度假设,该假设虽然在多数情况下是合理的,但是它无法有效处理大显著物体,复杂纹理背景以及与背景具有相似特征的显著物体这三种情况。针对此问题,本文提出了一种更为合理的可以有效处理上述三种情况的空间分布紧凑性假设,并将该假设与对比度假设相结合,实现了一种基于上述两种假设的对象级显著性检测方法。此外,为了有效融合在不同假设和不同特征通道下生成的显著图,本文提出了一种自适应的多显著图融合方法,该方法可以根据文中定义的质量评价得分自动的挑选出质量较高的显著度图。我们在流行的公共数据集上对本文的方法进行了测试,并与8种现有的方法进行了对比,实验结果表明,本文的方法取得了最优的检测性能。此外,我们还通过实验对本文提出的空间分布紧凑性假设和自适应的多显著图融合方法的合理性和有效性进行了验证,结果表明本文提出的空间分布紧凑性假设是合理的,且性能优于对比度假设,自适应的多显著图融合方法的性能也要优于其他常用的多显著图融合方法。
上述对象级显著性检测方法主要是针对静态图像的,本文通过将静态的颜色信息和动态的运动信息相结合,把上述针对静态图像的方法扩展到了视频,实现了视频的对象级显著性检测方法,实验结果表明,该方法的性能远优于现有的其它两种方法。此外,为了避免在镜头过渡帧之间计算运动信息带来的错误干扰,在对完整的视频进行对象级显著性检测之前,我们需要将其切分成单个的镜头。因此,本文提出了一种基于费舍尔准则的鲁棒而又高效的镜头切分算法,该方法在效率和准确性上均优于TRECVID2006上的最好方法。