论文部分内容阅读
作为一种把多种媒体信息综合在一起进行处理的技术,多媒体技术现在正迅猛的发展,随之而来的多媒体数据在日常的信息传递中无处不在。面对如此海量的数据,如何快速的检索出所需要信息的问题亟需解决。因此,基于内容的视频、图像和音频检索等多媒体检索技术发展已经成为一个涉及和包含多门学科理论的新的综合性的应用领域。其中视频广告作为商业信息的主要载体在数字化的今天扮演着日益重要的角色,然而对于广告检测的研究还相对比较落后。原因在于一方面广告的制作技巧和表现方式复杂多变,没有统一的规则可言;另一方面作为视频信息的一部分,广告的持续时间很短,因此特征周期不够明显,检测起来相对困难。本论文在参阅大量文献的基础上,系统地分析了视频广告播放中的视觉与音频信息的结构和特征,提出了鲁棒的视频广告检测框架。本文的成果性工作包括:①在广告镜头检测方面,首先从镜头边缘检测出发,提出了基于区域特征重要性的切变镜头检测算法和消隐镜头的检测算法,从而将视频段分割成镜头集合。同时在切变镜头的检测过程中,采用了自适应的阈值算法,从而提高了切变镜头检测算法的鲁棒性。②在广告音频融合方面,利用音频切变特征,对广告内部的音频进行切变检测,然后根据音频切变位置,对每一个已经分割完毕的镜头进行边界的精确定位,从而为得到准确的视频广告段做准备。③在视频广告后期处理方面,考虑到视频广告段在时间和内容上的连续性和一致性,我们采用了滑动窗口值累计算法,对已经分类的镜头进行重新分类,从而消除错分类的镜头。最后利用广告时间连续性的原则对广告镜头进行合并,从而得到视频广告序列。④基于前述工作,搭建了一个视频广告检测原型系统演示平台。