论文部分内容阅读
随着信息技术和互联网技术的高速发展,视频逐渐成为了人们获取和传递信息的一种重要媒介。视频中的文字是一种高级语义信息,能够为视频索引与检索提供十分重要的辅助信息。如果能将其视频中的文字准确定位并识别出来,识别结果可用于基于内容的视频存储、标记与检索。本文致力于Video OCR研究,其主要目的是提取出视频中的文本信息,具体包括:视频文本定位、视频文本跟踪、视频文本分割与识别。本文的主要贡献如下:
1)本文建立了四个用于视频文本识别研究的数据库:CASIA—TRAIN、CASIA-IMAGE、CASIA-TEXT和CASIA—VIDEO,并分别对其进行了标注,这四个数据库分别用于文本纹理分类器训练、视频文本定位、视频文本分割以及视频文本识别研究,本文同时给出了其对应的评测准则。
2)本文提出了一种视频文本背景复杂度的度量准则,并给出了其近似计算方法,基于该准则,本文提出了一种基于背景分类的文本定位方法,其主旨是对背景复杂程度不同的视频文本采用分而治之的策略,分别采用不同的定位方法。实验证明,本文所提出的方法对背景复杂度不同的视频文本均能取得不错的定位效果。
3)针对复杂背景,本文提出了一种基于分块策略的纹理特征,用于文本精确定位。首先将文本区域分为8×8块,然后分别对每个子块提取灰度对比度特征(GSC)和边缘方向直方图特征(EOH)。其中,GSC特征主要是用于去除复杂背景的干扰,EOH特征则是用于描述文本的整体纹理特性。与其它特征的对比实验表明,本文所提出的特征具有较强的可分性,可以获得较为精确的文本位置。
4)在视频文本分割阶段,本文提出了一种基于笔画和颜色的文本分割方法。首先通过笔画算子提取出候选的文本区域;其次根据候选文本区域对视频文本的像素进行高斯建模,通过高斯模型对文本图像进行分割;最后,通过局部颜色一致性分析,对非文本噪声进行过滤。实验表明本文方法对非文本噪声有较强的鲁棒性。