论文部分内容阅读
人眼观察真实世界能够获得立体感的一个最主要的原因是人眼视觉系统是双目构造并且左右眼看到的视觉影像是略微不同的,立体视频在播放时利用了这一原理来给观影者提供立体感。考虑到观影舒适度和立体感呈现的效果,需要对拍摄所得的原始立体视频进行后期处理。其中立体视频中场景的运动信息是关键的一环,能为处理过程提供指导。本文的主要研究目的即是对没有先验知识的立体视频进行场景运动信息的计算和分类。本文一开始着重讨论了拍摄使用的立体相机对的设置方式以及在不同方式下的成像模型和特点。立体视频相比普通视频具有的优势是已知立体相机对的设置信息后可以将某一帧立体视图内的特征点直接进行三维重建。基于度量重建结构之间的关系来估计场景的运动是本文提出的分类算法中的一个重点。本文获得场景运动信息的着手点在于直接计算拍摄所用相机对的运动轨迹。视频中呈现的场景运动的本质原因是由于相机对在拍摄的过程中相对场景产生了运动,因此对于复杂的场景运动方式可以通过相机对的运动来进行准确地解释和表达。由于视频没有先验知识,待求参数很多,因此本文将相机对的内外参数有效地分离后分别计算,并且在内参计算中创新性地利用了立体帧内度量重建结构的约束性质,从而降低了求解的难度以及提高了结果的准确性。视频相对于图像而言具有的特点是内容的连续性,因此在以上计算结果的基础上本文提出了优化的方法,通过将一段立体视频作整体的处理来提高结果的准确性。最终,两帧之间的相机运动计算结果被表达成为场景运动分类信息,然后汇总后取主分量作为该视频片段的场景运动方式。除此以外,通过对一些特殊情况的考虑和处理,本文最终得到了一个完整的场景运动分类的算法。实验结果表明,本文提出的算法是优秀和鲁棒的,在一定偏差条件下仍能有效地分类出场景的运动信息。