自然场景下的文本检测研究

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:braveheart
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,人们生活水平得到了极大的提高,带来人们生活方式的极大改变,越来越多的人选择网上跨国浏览信息等,每天会接触或产生大量的含有重要信息的自然场景图片,因此对自然场景中的图片的文字理解的需求日益增长,如何定位和识别自然场景中的图片成了研究的热门话题,本文着重研究自然场景中的文本检测,基于文本检测的目的是为了更好的文本识别,本文着重提高文本检测准确率与回归框与文本区域贴合度。网络采用编解码四级网络提取卷积特征,网络编码结构主要分为四个Blocks,网络的解码结构对四个Blocks的输出特征进行特征融合。该网络基于图像分割的思想,使用全卷积网络结构进行不同层次的特征的融合,并使用反卷积网络即解码结构,将图片恢复到原图像的四分之一,快速且准确的回归出文本区域,一步输出预测框。避免了文本检测步骤繁多、效率低下和深度学习复杂度高的问题。在提高文本准确率与回归框的贴合度方面,根据人眼的视觉特性,改进网络的局部结构,设计了更符合自然场景下文本特性的网络结构,特征提取网络的每个Block都根据负责的文本区域综合运用inception、特征融合、ASPP思想,模拟人眼的视觉特性,设计了符合文本特性的局部网络。同时本文还在标签生成时进行了文本区域差异化裁剪,配合网络的设计结构,使得回归的文本框更贴合文本区域,提高了网络对复杂背景的鲁棒性,提高了检测的文本区域的动态范围,提高了文本的检测准确性,有效改善了文本区域多框、少框等现象,减少送入识别网络的噪声。在模型压缩方面,网络通过模拟人眼,使用空洞卷积结构,降低冗余,减少网络层,并且对网络进行了压缩和加速,在不降低文本检测精度的情况下压缩网络,结合已有的网络压缩方法,对网络进行了压缩量化,将网络模型从六百多兆压缩至一百兆左右。本文的网络采用回归的方式一步输出带旋转角度的文本框,使用对cross-entropy loss 进行凸优化改进的 cross-entropy Lovasz loss 来提高定位准确率。实验证明,本文提出的文本检测可以很好的定位文本,在文本定位方面取得了不错的效果,有效的解决了文本的粘连、错误分区的问题,回归的文本框更贴合文本区域,有利于下一步的文本识别。
其他文献
到目前为止,已报道的配位化合物能有成千上万种,而这些化合物中很多已经应用于我们生活的各个领域,如:非线性光学、分子识别、催化、农业、超导、医药、生物、吸附和电磁等。
近年来,海洋技术研究受到广泛关注,“建设海洋强国”成为我国的重要战略目标。因此,面向海洋观测的水下传感器网络(Underwater Sensor Networks,UWSNs)的研究对维护国家海洋
微流控芯片,作为一种新型的生化分析技术平台,具有分析速度快、试剂消耗少、易集成和自动化等优势,近年来在生物、医学和化学领域受到广泛关注和得到越来越多的应用。但是,目
α-吡喃酮及衍生物因具有一定的药物活性而广泛被人们合成与研究。我们利用氮杂环卡宾(NHC)的特性,首次实现了炔基1,2-二酮类底物的极性反转,而且反应在温和条件下即可进行,
随着信息技术和计算机技术的迅猛发展,结合人工智能、计算机仿真、空间插值及曲面拟合等技术实现煤层地质体三维可视化模型已经成为当前国内外学者研究的热点。采煤工作面煤
自Bennett等人提出量子隐形态传送,量子态制备,量子稠密编码以来,大量学者开始了量子通信方面的研究,无论是理论上还是实验上都取得了成功。相比经典通信技术,由于像热耗效应
含氟有机化合物在医药、农药、材料等领域具有广泛的应用,由于全氟烷基的吸电子性、亲脂性和代谢稳定性,在提高药物药性中起着关键作用,向有机分子中引入全氟烷基的方法已经
信息是当前网络环境中的重要载体,融入人们生活的各个方面。在信息交换与输入输出的同时,信息的安全性也成为人们日渐关注的焦点和追求的目标。签名与加密是能够确保数据的不
工业机器人具有成本较低、灵活性好、智能化程度高的优点,在飞机装配制造领域得到了越来越广泛的应用,而现代飞机对性能和寿命的高标准,相应地对飞机装配质量提出了更严格的
随着科学技术的不断发展,飞机逐渐成为人们出行的主要方式。如果飞机在飞行过程中出现有害气体泄漏,导致座舱空气中污染物含量增高,将会严重影响人体健康。因此关于座舱污染