论文部分内容阅读
视频文字是除了视频中的图像信息以外的一种能够准确概括视频内容的有效方式,人们可以单单从视频文字来了解视频的主要内容,省去了大量观看视频本身的时间,同时文字信息为视频的检索提供了有利的依据。视频文字检测决定了视频中是否含有文字,为定位起到了筛选的作用,可以提高定位的速率以及准确率;视频文字定位可以帮助减少视频数据的存储量,也为视频内容的理解和检索提供了线索。因此,视频文字检测与定位研究具有重要的意义。统计学习是一种研究小样本分类、回归和预测的理论,其最有指导性的理论结果是推广性的界。在统计学习理论的基础上发展出了最小最大概率机、支持向量机等机器学习方法,它们在解决小样本、非线性及高维模式识别问题中表现出特有优势。本文利用统计学习方法实现视频文字的检测与定位,具体研究内容如下:(1)基于最小最大概率机的视频文字检测研究。读取视频信息,对视频帧进行离散余弦变换,提取视频帧的纹理特征作为样本,训练最小最大概率机分类器,得到离散余弦变换块数分布,结合阈值条件以及文字本身所具有的特征,利用分布出现突变处判断视频帧中文字出现或消失的帧。实验结果表明,最小最大概率机算法对于视频文字的检测是可行的,准确率达到约95.2%。(2)基于梯度离散余弦变换的视频文字定位研究。为了在视频帧中定位出笔画简单的文字,更进一步地研究文字的纹理特征,将梯度计算引入离散变换,在特征提取过程中,突出体现了文字的边缘信息;对初步划定的候选文字区域,进行滤波和形态学处理等操作。实验结果表明,通过对视频帧进行梯度离散余弦变换得到的纹理特征可以作为文字与背景区分的有利依据,并且与仅使用离散余弦变换算法相比,对于较少笔画的漏检率降低了2.4%,运行时间缩短了2.2s,该算法同样适用于视频中的静态和动态文字的定位。(3)基于模糊支持向量机的视频文字定位研究。为了在复杂背景中准确定位出文字,降低定位的虚警率,在提取出上述纹理特征的基础上,结合视频帧的灰度和边缘信息,将其作为三维样本,选取适当的参数和核函数,训练模糊支持向量机分类器,利用视频文字本身所具备的特征进行后处理,用文本框精确标识文字区域。由于模糊支持向量机存在着隶属度,能够对样本属于不同类别的程度进行合理地区分,因此,较运用经典的支持向量机算法进行定位时准确率提高了6.2%,虚警率降低了1.5%,对于视频中的静态和动态文字的定位该算法同样适用,且准确率较高。