【摘 要】
:
场景文本检测是指在复杂背景中检测文本区域并对文本边界进行标记,其广泛应用于文档分析、自动驾驶、实时翻译、视频场景分析等领域。传统的场景文本检测方法局限于简单场景,并且大多只能检测水平文本,对于广告牌、指示牌、商标等背景多样、清晰度不足的复杂场景检测并不准确。随着深度学习的迅速发展,涌现了许多基于深度学习的场景文本检测算法。该类算法弥补了传统场景文本检测方法的不足,使检测的准确度得到了提升,在复杂场
论文部分内容阅读
场景文本检测是指在复杂背景中检测文本区域并对文本边界进行标记,其广泛应用于文档分析、自动驾驶、实时翻译、视频场景分析等领域。传统的场景文本检测方法局限于简单场景,并且大多只能检测水平文本,对于广告牌、指示牌、商标等背景多样、清晰度不足的复杂场景检测并不准确。随着深度学习的迅速发展,涌现了许多基于深度学习的场景文本检测算法。该类算法弥补了传统场景文本检测方法的不足,使检测的准确度得到了提升,在复杂场景下也能取得良好的检测效果。虽然基于深度学习的场景文本检测算法取得巨大进步,但是在现实应用领域仍受诸多因素影响,如文本行形状不一、方向不同、颜色和尺度的多样化、光照程度变化、文本被遮挡等,这些因素使场景文本检测的难度不断提高,降低了检测的准确度。为了准确检测场景图像中尺度差异过大的文本并且提升场景文本检测的准确度,本文提出一种基于多尺度注意力融合的场景文本检测算法。该算法以优化的Res Net50为骨干网络,以此为基础设计了多尺度特征提取模块、双注意力融合模块和特征金字塔模块。首先,将Res Net50骨干网络的stage5的卷积改为扩张卷积,增大网络的感受野;其次,设计多尺度特征提取模块与双注意力融合模块结合,加强场景文本图像中的文本特征,提升检测文本图像中重要信息的能力;最后,将多尺度注意力融合模块的输出与特征金字塔的输出融合,输出的各支路特征信息进行相加,实现对文本信息的准确定位。本文在ICDAR2015、Total-Text和MSRA-TD500数据集上进行了实验,包括对比实验和消融实验。通过将本文算法与主流场景文本检测算法及经典场景文本检测算法比较,本文的算法网络可在ICDAR2015、MSRA-TD500和Total-Text数据集上分别取得最优的准确率,数值分别为92%、92.3%和89.8%,并且在消融实验中证明了该算法添加的网络模块的有效性。
其他文献
翻译,尤其是文学翻译,作为各民族文化交流的主要方式之一,具有深刻的社会意义。谢天振教授首次提出了译介学理论,为我们研究文学翻译提供了一个全新的思路。俄国著名批判现实主义作家契诃夫,一直广受中国读者们喜爱。他于1886年创作了短篇小说《万卡》。小说以社会底层“小人物”万卡为主角,讲述其在城市做童工时遭受的虐待,反映了十九世纪俄国社会的黑暗。在俄罗斯和中国从文学和教育方面有许多关于《万卡》的研究,但是
我国国民经济发展离不开政府的国民经济和社会发展规划,“五年规划”是我国每五年一个阶段的国民经济和社会发展规划,从建国初期开始到现在“五年规划”对我国经济发展发挥了重要作用。我国的五年规划经济机制不仅充分考虑国民经济发展具体实际情况,而且也注重根据区域经济发展实际来有针对性的不断更新,枣庄市作为山东省重要区域经济主体,在五年经济规划体制下不断取得新的突破。随着我国“十三五”规划阶段的完成,国内各级区
随着中国综合国力的提升,中国文化的对外传播越来越重要。中国大学生在促进中国文化对外传播方面应该发挥重要作用。然而,有关大学生中国文化英语表达能力的现状研究表明大学生用英语表达中国文化的能力较差,并且主要是通过英语教材学习有关中国文化的英语表达。基于此,一些学者提出有关中国文化的英语新闻因其地道的中国文化英语表达,并能比较全面地介绍中国文化而应成为本科生学习中国文化英语表达的有利材料。以往关于大学生
近年来,社科专著汉译本的插图本大量涌现,体现了插图本在普及社科专著中的重要作用,同时也推动了翻译作品中的图示研究。然而,对于《国富论》这一社科专著巨作,其译作中的图示研究却鲜有人涉足。图示作为众多交际模式中的一种,与语言一样,包含了M.A.K.Halliday提出的概念意义、人际意义与组篇意义。Arnheim(1997:253)指出“一些图像更善于营造直接的情感效果,而文本更适合逻辑分析。”可见,
语体意识是关于语言得体性的本能知识,是在语言交际过程中注重语言得体性的意识。二语写作能反映二语学习者的语言水平,而写作中通过语言特征展现的语体意识及其促成的语体的恰当运用是评估二语写作能力的重要指标之一。国内外二语写作研究多聚焦于二语写作的具体语言点使用及其影响因素。语体意识研究方面,近几年学者们多聚焦于高等教育领域,重点关注口笔语的词汇或句法使用差异,研究对象以学术论文为主,而对于探究中等教育领
项目式学习和多媒体技术在各学科各学段的教育教学中都有着广泛的应用。Flash动画本身直观性、趣味性、交互性强,能够将生活中无法接触到的抽象事物具象化,且制作门槛相对较低。这些特点让Flash动画在各学科教学中发挥出强大的作用,教师可以根据课程、学生的实际情况有针对性的制作Flash动画,在通过Flash动画辅助教学的过程中,应采用合理的方式,调动学生在实验探究中的积极性,从而增加学生参与课堂活动的
随着时代进步和社会变迁,创新已经成为国家进步与发展的重要推进剂,如何创新教育形式,培养富有创造力的人才,是时代赋予各国的重要命题。起源于设计领域的设计思维,经过不断发展,已经在包括教育的诸多领域发挥作用。设计与创新之间存在着相互依存的关系,设计思维理念以设计活动为核心,能够有效培养学生创造力,因此设计思维与教育融合正在教育领域愈发受到关注。开源软硬件作为兼容,共享的教学平台,可以为教学提供新思路和
词串指的是出现频率极高、结构不一定完整、连续的多词结构。它作为一种使用频率高、分布范围广的短语研究单位,是语言使用中的一种普遍现象,体现着语言使用的总体状况。语料库语言学的发展丰富了词串研究的内容。然而,目前的研究多以英语学习者和本族语者在学术英语写作中使用的词串为研究对象,进行单独研究或对比研究。对非学术英语写作尤其是不同水平非英语专业大学生写作中词串使用情况的研究较少。而对不同水平英语学习者的
目前,随着高科技智能化发展,人类对图像质量的要求也在不断提高,因此针对单一图像超分辨率的研究愈发火热。图像超分辨率技术在医学影像、遥感成像、公安安防等多领域都有着极高的研究价值和现实意义。在前期对基于卷积神经网络(CNN)的图像超分辨率技术的研究发现,尽管卷积神经网络在图像超分辨率重建领域能够产生较好的图像复原效果,但是基于CNN的图像超分技术仍有以下不足:当输入的图像信息通过许多层后,在到达网络
近年以来,染料废水的过度排放引起了全球能源问题的日益严重,对此许多科研机构加强了对于清洁化学染料(MB、MO、R6G等)的研究。环保高效的纳米催化剂被认为是理想的材料之一,在现代能源发展领域具备广阔的应用远景。理论与实验研究结果表明,二维材料凭借其优势在解决环境问题方面具有很大的潜力。具有花状的壳和空心腔体结构的材料表现出更大的比表面积及大量的表面缺陷位点,有益于光生电子-空穴对的分离,进而有效提