论文部分内容阅读
文字作为人与人交流或人与物体交互的重要形式之一,是一种能够提供信息的重要元素。近年来,从场景中检测识别文字已经成为热点研究方向,其目的是将场景中的文本图像通过算法翻译为字符文本,这种转换可以应用到很多的实际应用项目中。相较于传统光学文本识别,基于深度学习的场景文字检测识别能够适应更多复杂场景,无需特殊化要求,这类文字检测识别技术可以应用于票证识别,内容筛选等方向,例如为车站检票提供便利以及为国家安全提供信息内容的安全监督,因此这个研究方向很有价值和意义。本文通过对相关技术的研究,设计了一个端到端的文字检测与识别网络,其中文字检测模块基于目标检测网络,并且与文字识别模块进行特征共享,实现模块训练的互相监督,该网络可以完成场景文字检测的任务,可以检测复杂场景中任意方向上的文字,并将文字图像翻译为字符。本文的研究内容和成果如下:1.改进了YOLOv3目标检测算法。针对检测长文本行出现的问题进行了修正,缩减了网络层数,加快了检测速度,同时使用残差网络为网络提供了共享特征层以应对复杂的场景。2.设计了一个端到端的文字检测与识别网络。该网络通过残差网络生成检测模块与识别模块的共享特征,检测模块基于目标检测网络结合共享特征进行文本区域预测,识别模块结合检测模块的文字区域特征和共享特征进行文字的识别工作。这样的解决方案降低了模型训练的时间和大小,更避免了由于两个网络的差异性造成识别准确率较低的问题。该网络可以完成文字检测与识别的任务,相比于非端到端的网络,在特征提取方面可以提取更通用的特征,文字检测与文字识别网络模块之间可以互相监督与调整,使得网络的参数更优,效果更好。3.网络的文字识别模块使用了结合CNN与RNN的编码器和CTC的解码器实现,完成了输入序列大于输出序列的文本图像翻译成字符的任务。4.在文字检测模块与文字识别模块之间使用了仿射变换的操作对输入到文字识别模块中的特征图进行形状上的统一化,使得送入识别模块的特征图拥有统一的高度,方便进行字符识别。5.基于Darknet深度学习框架实现网络的训练和测试,对网络模型在不同的数据集上进行效果测试和与不同的网络模型进行对比实验。通过实验得到的数据和实际效果发现,本文设计的网络模型可以应付多种复杂的自然场景,具有较强的鲁棒性,算法能够准确地检测到场景中的文字,并对文字图像进行翻译得到文本字符,在准确率和识别上都达到了较优秀的水平,具有较强的研究应用价值。