论文部分内容阅读
在自然图像中存在大量的文本信息,如交通指示标志,广告宣传牌,商家招牌,建筑物标示,街道编号等,这些文本信息属于高层视觉元素,为场景的理解、分析提供丰富而关键的线索,因此研究出一种自动识别文本信息的工具,进而对文本进行后续的相关检索、分析有重要意义。可应用于图像检索,智能监控,盲人导航等领域。图像分割作为计算机视觉领域基础但是关键的一个步骤,实现文本的自动识别自然离不开对图像中的文本进行分割。自然场景图像由于背景较为复杂,且图像易受拍摄角度及光线的影响而产生变形、模糊、断裂等现象,因此传统的文档分割技术应用于复杂自然场景文本分割时效果不佳,更有效的针对复杂自然场景的文本分割技术仍是目前计算机视觉和文档分析领域的研究热点之一。本文针对复杂背景图像中的文本分割进行相关研究,主要工作有以下几部分:受超像素这一概念的启发,为了减少图像局部信息冗余,提高图模型效率,本文用超像素区域代替像素点构建加权图模型。因此本文首先介绍了超像素这一新近概念的发展背景和历史,通过梳理各种超像素的生成方法,评价其适用各种场景的优缺点后,选择出适用于本文的基于SLIC超像素生成算法并进行适当改进。在简要介绍图割基本原理的基础上,分析能量函数的构造,归纳出基于图割的图像分割步骤。其次,针对场景文本的复杂性,提出一种基于改进的超像素和Graph Cuts的场景文本分割方法。该方法用预分割后的超像素代替像素点构件图模型,运用两种模型(GMMs模型和基于SVM的后验概率模型)代替单一GMMs模型构建文本和背景模型,并采用EM算法自适应学习GMMs模型的参数。最后在Matlab R2010软件环境中使用实验室数据库进行了文本图像分割测试,并结合使用光学字符识别软件(OCR)对分割后的识别效果进行实验,结果表明:本文设计的算法可以获得较好的分割效果,有一定的应用价值。