论文部分内容阅读
随着数字技术在视频中普遍应用,视频可以通过数字摄像机反复拍摄,通过电脑软件轻松剪辑,通过光盘永久存储,通过网络快速传输,通过数字荧幕精彩呈现。数字化使更多更好的视频走进了我们的生活。然而随着视频(特别是互联网视频)数量以爆炸式地增长,再加上视频内容本身的无结构无层次的特性,给视频的分类,索引,归档,搜索工作带来了巨大的压力。另一方面,YouTube等视频网站已经吸引了全世界网民的目光,人们每天将数以万计的视频上传至网站,而其中不少存在色情、血腥的内容,如何将这些视频从上传的海量视频中找出并剔除成了网站工作人员沉重的负担。就此问题,学界提出了基于内容的视频检索的研究课题。该领域借鉴文本内容分析的方法,首先实现视频内容的格式化,进而实现高层语义(内容)的分析和提取,最后根据这些语义完成视频的分类,索引,归档等。本文所研究的内容正是视频内容的格式化的最基础工作——视频镜头边界检测,即将在时间上连续的视频帧序列分解为镜头这一最小的视频结构单元。本文将镜头边界检测问题分为三个独立的子问题——特征选取、不连续度计算和阈值判定,在每个子问题中,分析总结了前人的研究方法和取得的成果,并针对不连续度计算和阈值判定两方面现有方法的一些不足,提出了以下两种方法:1.在MPEG压缩域中,本文选取I帧的DC系数,分块统计直方图,比较得不连续度,与时间因子和运动差异因子所决定的自适应χ2阈值比较判别镜头边界。该方法无需解码视频,实时性高。2.在非压缩域中,设定可变窗,分块比较窗中第一帧和最后一帧的YCbCr直方图得不连续度,并根据其大小,动态调整下一窗口跨度。该方法仅需解码少量的帧,特征选取更丰富,鲁棒性高。本文通过三段具有代表性的视频,分别对比了双因子自适应阈值与固定阈值,整体直方图与不同分块、不同权重直方图的实验结果,证明了本文提出的自适应阈值和分块直方图的优越性。本文提出的两种镜头边界检测算法,经过TRECVid权威数据库测试,在综合性能上优于一些同类算法,达到了预期的研究目标。