论文部分内容阅读
近年来,人们生活水平得到了极大的提高,带来人们生活方式的极大改变,越来越多的人选择网上跨国浏览信息等,每天会接触或产生大量的含有重要信息的自然场景图片,因此对自然场景中的图片的文字理解的需求日益增长,如何定位和识别自然场景中的图片成了研究的热门话题,本文着重研究自然场景中的文本检测,基于文本检测的目的是为了更好的文本识别,本文着重提高文本检测准确率与回归框与文本区域贴合度。网络采用编解码四级网络提取卷积特征,网络编码结构主要分为四个Blocks,网络的解码结构对四个Blocks的输出特征进行特征融合。该网络基于图像分割的思想,使用全卷积网络结构进行不同层次的特征的融合,并使用反卷积网络即解码结构,将图片恢复到原图像的四分之一,快速且准确的回归出文本区域,一步输出预测框。避免了文本检测步骤繁多、效率低下和深度学习复杂度高的问题。在提高文本准确率与回归框的贴合度方面,根据人眼的视觉特性,改进网络的局部结构,设计了更符合自然场景下文本特性的网络结构,特征提取网络的每个Block都根据负责的文本区域综合运用inception、特征融合、ASPP思想,模拟人眼的视觉特性,设计了符合文本特性的局部网络。同时本文还在标签生成时进行了文本区域差异化裁剪,配合网络的设计结构,使得回归的文本框更贴合文本区域,提高了网络对复杂背景的鲁棒性,提高了检测的文本区域的动态范围,提高了文本的检测准确性,有效改善了文本区域多框、少框等现象,减少送入识别网络的噪声。在模型压缩方面,网络通过模拟人眼,使用空洞卷积结构,降低冗余,减少网络层,并且对网络进行了压缩和加速,在不降低文本检测精度的情况下压缩网络,结合已有的网络压缩方法,对网络进行了压缩量化,将网络模型从六百多兆压缩至一百兆左右。本文的网络采用回归的方式一步输出带旋转角度的文本框,使用对cross-entropy loss 进行凸优化改进的 cross-entropy Lovasz loss 来提高定位准确率。实验证明,本文提出的文本检测可以很好的定位文本,在文本定位方面取得了不错的效果,有效的解决了文本的粘连、错误分区的问题,回归的文本框更贴合文本区域,有利于下一步的文本识别。