基于特征融合的自然场景文字检测方法研究

来源 :武汉理工大学 | 被引量 : 0次 | 上传用户:MaoZeDongDaShaBi2005
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自然场景图像中的文字检测是计算机视觉领域的一项重要研究内容。由于自然场景的复杂性、文字本身多样性以及图像质量等因素的影响,该类图像的文字检测任务具有挑战性。本课题围绕深度学习的自然场景图像文字检测展开研究和改进,提出多尺度任意方向的自然场景文字检测方法。主要研究内容和创新如下:(1)研究多尺度特征融合的特征提取方法。针对文字特征提取阶段未充分利用卷积各中间层信息的问题,提出一种多尺度特征精细化融合的特征提取方法。该方法基于特征金字塔FPN结构,在残差网络ResNet50中加入全局平均池化层GAP进行预训练以得到更多的全局信息同时降低过拟合,以多尺度输入的特征精细化融合网络RefineNet作为FPN的横向连接模块,得到特征表示更充分的模型用于后续检测任务。实验表明多尺度特征精细化融合方法提高了检测精度,并为后续文字检测提供了技术支撑。(2)研究划分文字尺度的水平文字检测方法。针对单一尺寸特征图难以适应多尺度文字检测的问题,提出一种基于文字尺度划分的水平文字检测方法。考虑不同尺度的特征图对文字尺度的敏感度不同,按文字标注框长边将文字划分为三种尺度范围,将不同尺度范围内的标注框分散到三个候选区域提取网络RPN中进行训练,对其后的三个预测网络的检测结果进行合并和去重,得到分层检测模型以适应尺度变化较大的文字,实验表明划分尺度的方法提高了水平方向的文字检测精度。(3)研究聚焦难样本损失的任意方向文字检测方法。针对水平检测框难以贴合真实文字排布方向及特征旋转变化的问题,在划分尺度的水平文字检测模型的回归网络中增加旋转对称的角度通道,实现了任意方向上的文字检测。针对模型训练过程中难样本学习不充分的问题,将难样本问题扩展为难分类和难回归两个问题,分别设计聚焦难样本的损失函数,重点学习难样本特征以提高模型的分类准确率和定位准确率。实验表明增加角度训练和聚焦难样本损失的方法提高了多方向上的文字检测精度。
其他文献
渤海湾盆地南堡凹陷发育沙三段、沙一段和东三段三套烃源岩,目前对沙三段烃源岩研究认识比较清楚,但对沙一段和东三段烃源岩的生排烃能力及有效性认识不足,导致对南堡凹陷油
随着中国综合国力的增强和国际影响力提高,汉文化在交流传播过程中,以其独有的魅力吸引着全球人民的目光,“汉语热”的出现成为时代发展的必然趋势。因此,要发挥对外汉语的文
大规模多输入多输出(Multiple Input Multiple Output,MIMO)技术因为其大吞吐量、高频谱效率等优点成为了第五代通信系统(5G)的关键技术之一。在大规模MIMO系统中,基站端获得准确的信道状态信息(Channel State Information,CSI)是发挥其性能优势的前提。这是因为大规模MIMO系统中的一些关键技术,比如预编码技术、功率分配技术和调制技术等都是建
如今面对与日俱增的数据规模与数据复杂性,Spark大数据分布式数据处理平台以其高性能的缓存机制及高扩展性的特点被业界广泛应用。但是当面对数据密集型应用时,Spark集群仍然
从2010年起,许多中概股的企业价值被低估,且接连受到做空机构攻击,所以陆续开始筹划回归A股事项,并于2015年掀起一股回归的风潮。但盲目的回归助长了套利行为,催生壳资源的炒作,因此监管部门提出要对中概股回归问题深入研究,严格审核,许多回归计划被终止。直到2018年,证监会声明将积极支持优质中概股回归A股市场,可见我国旨在将真正优质的企业接纳回国,提升A股市场上企业的整体质量。鉴于中概股回归对资本
现今,优化问题早已渗透到如工程、科学、工业等大多数领域中。以生物智能为基础发展起来的仿生群智能优化算法具有并行高效的、通用性强、无需问题特殊信息等优点,为解决优化问题提供了新的思路。萤火虫算法(FA)是一类受萤火虫群体发光行为信息的启发演变过来的新型仿生群智能优化算法,算法通过搜索域内更亮萤火虫吸引其他个体向其移动,实现位置更迭。本文针对传统萤火虫算法存在的求解精度低、稳定性弱、易陷入早熟收敛等缺
近年来,分布式信号处理技术迅速发展,通过实现网络中每个传感器的本地处理和相邻传感器之间的通信,提高了网络的可扩展性和灵活性。目标跟踪作为信号处理领域的热点问题之一,
为了有效提高软件开发质量,减少由于程序设计和不良编码风格导致的代码异味,亟需对异味处理方式进行改进,即提高重构效率。由于重构的成本较大,且不同的代码异味对软件系统来说并非同等重要,本文提出了两种不同的重构策略,以不同的异味排序方法来着重关注那些有较高概率出现异味的类。此前,对于代码异味排序的研究,主要分为基于种类级(kind)和基于实例级(instance)两类。基于种类级的异味排序主要是对不同异
维生素D3(Vitamin D3,VD3)作为重要的激素前体,它是人类、动物生长和繁殖必不可少的一种物质。VD3其母核结构中的C1α位或C25位若发生羟基化作用,可以形成具有生理活性的VD3,具
深度学习在计算机视觉领域的应用十分广泛。例如物体检测、识别、跟踪,场景理解等。这其中,图像语义分割一直占据着重要的地位。全卷积神经网络在处理图像语义分割问题上展现出了前所未有的优势。最常用的全卷积网络为编解码器结构,在编码过程中,原图像会被降采样,因此大量的空间信息被丢失,导致分割精度下降。此外,通常的算法模型都会采用较为庞大的神经网络结构,导致推理速度的下降。而如果单纯的使用轻量级网络作为编码器