论文部分内容阅读
图像中的文字信息作为场景内容的一部分,往往为人们或计算机理解场景提供了直接而关键的线索。比如路牌、商店招牌、交通提示牌和各种建筑物上的文字信息,这些文字信息都具有明确的含义,是场景信息的重要表现形式。因此,自动提取场景中的文本信息可广泛应用于各种需要对场景中的文本进行分析和理解的场合,如视频和图像检索系统,涉外导游自动翻译、盲人引路、机器人行走和智能监控系统等。该课题目前已成为计算机视觉和文档分析领域的研究热点之一。本文对自然场景文本信息提取的关键技术进行了深入的研究,论文取得了以下主要研究成果:1.从频域出发,提出了一种将纹理分析和模板匹配验证策略相结合的复杂文本定位方法。考虑到具有一定宽度和方向的文字笔画可视为一种带通信号,而小波变换在捕捉这种带通信号方面具有较大的优势。首先将输入图像进行小波变换,提取每个像素局部区域的纹理统计特征,采用蚁群聚类算法进行聚类分析,并结合基于密度的区域生长算法得到文本候选区域;然后提取候选文本块的LBP-HF特征,利用模板匹配的方式进行文本和非文本的确认,最后得到文本区域的位置。2.针对复杂场景中文本和非文本难以有效区分的问题,将小波变换和多尺度LBP算子相结合,提出了一种能够有效表达文本模式的WTLBP特征。在此基础上,提出了一种基于WTLBP特征和支持向量机(Support Vector Machine, SVM)的复杂场景文本定位方法。算法首先根据中文文字的结构及笔画方向特点,设计合适的边缘检测算子提取文字的笔画边缘,进行形态学滤波后形成备选文本区域集合;然后提取候选文字区域的WTLBP特征,结合SVM分类器实现文本区域的确认。3.针对文本验证时仅考虑其区域特征而忽视文本区域的空间位置关系的问题,提出了一种基于多特征和图割模型的场景文本验证方法。算法首先分析了候选文本连通区域的空间关系及其在候选文本区域验证中的作用;然后根据文本区域的空间关系,建立候选文本区域的邻域连接图。在此基础上,将候选文本区域映射为一个有权无向图,以组合优化的方式将候选文字区域标记为文本或背景。实验结果验证了算法的有效性。4.针对复杂场景文本难以有效分割的问题,提出了一种基于扩展马尔可夫随机场(Markov Random Field, MRF)模型的场景文本分割方法。首先分析了经典MRF模型的优势和不足,提出了一种扩展的MRF模型。其次,在分析场景文本特点的基础上,提取文本的颜色和最大梯度差(Maximum Gradient Difference,MGD)特征,将文本的上下文信息与多特征统一在同一概率框架下,利用图割算法对所建立的模型进行推断。最后在两种数据库上,对算法的性能进行了测试比较,结果表明了所提出的模型适合处理复杂情况下的文本分割问题。5.针对复杂场景文本的多样性,提出了一种基于局部颜色一致性和图割模型的复杂场景文本分割方法。算法首先利用文字笔画颜色一致性特点,采用SLIC算法将输入图像分割为若干局部同质区域,将局部区域代替像素点构建图模型;其次,根据文字笔画的双边缘特点,自动提取文字和背景种子点;提出采用两种模型构建文本和背景模型,并引入模型性能描述因子自适应学习模型参数。实验结果表明了算法在复杂场景文本方面的有效性。