论文部分内容阅读
复杂背景图像中的文字往往包含重要信息,是图像内容识别与场景理解的关键。因此,复杂图像中的文字区域定位技术是图像检索、人机交互、模式识别等方向的重要研究课题,同时在智能购物、自动驾驶、文档分析等领域具有广阔的应用前景。图像中的文字区域定位是指在包含文字的图像中找到文字区域的位置坐标,以便后续对文字的处理(识别、匹配等)。传统图像OCR技术主要处理背景简单的文档图像,难以应对背景复杂图像。目前,复杂背景图像中的文字区域定位技术研究大多关注中英文,该类技术对像维语这样使用人口较多的少数民族(维族人口 1006.93万1)的文字定位精度不高。同时,由于图像本身的噪声、光照、模糊、遮挡等干扰因素,以及文字本身的字体大小、颜色和字体的多变性,使得图像中的文字区域定位任务充满挑战。尤其是复杂背景图像往往包含大量易与维语文字混淆的元素(比如,树枝、草地纹路、波浪等)。本文围绕维语自身的特点以及复杂背景图像中文字定位相关技术展开,重点研究了复杂背景图像中维语文字组件的提取方法和图像文字/非文字组件分类方法,取得了一定成果,总结如下:1、基于多颜色通道增强的候选组件提取方法近年来,基于最大极值区域(Maximally Stable Extremal Regions,MSER)的候选组件提取方法以其快速高效的特点而被广泛采用。但是MSER对图像的低分辨率和模糊敏感,容易遗漏文字组件候选。为了弥补MSER的这一缺陷,本文提出了一种基于多颜色通道增强MSER的候选组件提取方法,其包含两个阶段,提取阶段和去重阶段。提取阶段中,通过分别提取各颜色通道中的MSER能有效提高MSER对图像模糊和低分辨率的鲁棒性,获得较高的召回率。在去重阶段,由于在多个颜色通道中提取的候选组件包含大量重复,因此在本阶段使用一个高效去重算法进行去重以减少后续步骤的计算量。实验结果表明该方法有效改善了 MSER的鲁棒性,在组件提取任务中取得了高达91.4%的召回率。2、基于强分类恢复策略的文字组件分类方法本文提出的强分类恢复策略包含两个阶段:强分类阶段和恢复阶段。由于文字本身具有丰富的梯度特征,因此在强分类阶段使用两个自适应的梯度方向直方图特征(Histogram of Oriented Gradient,HOG)+ 支持向量机(Support Vector Machine,SVM)构成的分类器分别在不同特征空间对组件进行分类。由于强分类阶段难免将文字组件误判,因此在恢复阶段就是要找回被误判的文字组件。一般而言,相邻文字组件的颜色特征具有较大的相似性,根据这一特点,通过计算强分类阶段已经区分开的文字组件与非文字组件的颜色特征相似性实现误判文字组件的找回。实验结果表明该方法在文字与非文字分类任务中的准确率达到了 94..34%。3、基于CPU-GPU异构并行的加速方案随着多核CPU的普及和GPU编程接口的完善,在普通机器上进行小规模的并行计.算得以实现。在本文提出的复杂背景图像中维语文字区域定位方法中存在大量可并行计算,因此本文提出了针对该方法的异构并行加速方案。通过任务划分,充分利用CPU和GPU的计算资源来加速算法。实验结果表明,该并行加速方案将复杂背景图像中维语文字区域定位算法的运行速度提升了 12.5倍。本文针对复杂背景图像中维语文字区域定位技术中存在两个核心问题,分别提出了有效的解决方案。在复杂背景维语文字图像数据集(Uyghur in Complex Background Image,UICBI400)上使用面积标准的测试准确率和召回率分别达到了 81.4%和94.8%,领先当前传统定位方法。之后又对初始提出的方法进行了并行化改进,进一步提高了其运行效率。