【摘 要】
:
随着移动终端设备的普及和存储技术的发展,图像数据也在呈爆炸式地增长,并记录着人们工作生活中的方方面面。其中,包含着文字信息的文本图像更是成为了当今社会信息记录、传播和交流过程中不可或缺的重要媒介。但文本图像中的信息是以模拟信号的形式呈现的,即图像中的像素值。如果能将这些模拟信号数字化,人们就能更高效地从中获取有用信息。在文本图像中,文字和表格是非常常见且重要的高层次语义信息。自动化地从文本图像中提
论文部分内容阅读
随着移动终端设备的普及和存储技术的发展,图像数据也在呈爆炸式地增长,并记录着人们工作生活中的方方面面。其中,包含着文字信息的文本图像更是成为了当今社会信息记录、传播和交流过程中不可或缺的重要媒介。但文本图像中的信息是以模拟信号的形式呈现的,即图像中的像素值。如果能将这些模拟信号数字化,人们就能更高效地从中获取有用信息。在文本图像中,文字和表格是非常常见且重要的高层次语义信息。自动化地从文本图像中提取文字信息和抽取表格数据有着非常广阔的应用前景,例如辅助视觉障碍者、实时翻译、基于文本内容的图像检索、票据识别和校验、文档数字化和结构化信息抽取等。而为了实现这些目标,作为其先决条件的鲁棒文本检测和表格抽取技术至关重要。但是,由于文字和表格本身所具有的高变化度(例如文字灵活多变的字体、颜色、大小、形状、方向和语言等以及表格各种各样的风格、大小和版式布局等),图像中的复杂背景(例如有些背景目标会与文字或表格有相似的视觉纹理特征),以及扫描或拍摄时引入的干扰(例如扫描噪声、不均匀的光照、低对比度、低分辨率、阴影、透视变换和扭曲等),文本图像分析中的鲁棒文本检测和表格抽取问题仍是尚未解决的难题。在深入调研了相关领域的进展之后,本文对文本图像分析中的若干关键技术,即鲁棒的文本检测、表格检测和表格结构识别,分别开展了研究工作:(1)基于视觉关系检测的框架提出了一种新的文本检测方法。为了能有效应对文字的长宽比变化、任意形状和密集分布,本文采用自底向上的思路检测文字,即先检测文本片段然后将其拼成文本行。但现有的自底向上的方法很容易错误地将邻近的文本行聚合到一起或者将字符间隔较大的文本行分割成多个片段。为了解决复杂的文本行串行问题,本文提出将文本检测问题定义成一种视觉关系检测问题,通过定义文本片段之间的“连接”关系来表示两个文本片段是否属于同一个文本行。本文首先提出一个基于关系网络的方法,利用来自文本片段对并集框的上下文信息,来帮助预测连接关系。然后,本文进一步提出将文本片段构建成图,并借助图卷积网络探索更广的上下文信息,以提升连接关系预测的精度。实验表明,本文的方法可以比之前的方法实现更好的文本检测精度,特别是对有较大字符间隔的文本行和密集的任意形状的文本行。(2)提出了一种基于角点定位的高定位精度的表格检测方法。由于表格通常是按照网格状排列分布的且文本之间有对齐关系,这使得表格角点具有很明确的物理意义,是对表格进行精确定位的重要线索。基于此,本文提出先检测表格的角点并对它们进行组合以生成表格候选框,由此可以利用角点响应图上精确的像素级别的角点位置线索来大大提升表格候选框的质量。然后,本文结合一个Fast R-CNN模块,用于筛除其中非表格的候选框,同时进一步精调表格框位置。实验表明,本文提出的表格检测方法仅需用一个非常轻量级的ResNet-18骨干网络就可以在多个公开的表格检测数据集上取得优越的检测性能,特别是在更严格的评价准则下,本文的方法相比于其他方法优势会更加明显。(3)基于拆分-合并范式提出了一种新的表格结构识别方法。之前现有的基于深度学习的表格结构识别方法大多假设表格是水平竖直对齐的,因此它们无法处理有倾斜甚至弯曲形变的表格。此外,只有极少数的方法考虑了跨多行多列的单元格,且其识别精度不高。为了解决这些问题,本文首先提出一个基于Spatial CNN的表格分隔线预测算法,用于将表格拆分成基础的网格状分布的单元格。通过在全图范围内有效地传播上下文信息,Spatial CNN可以显著提升在空白区域和有弯曲形变的位置分隔线预测的精度。然后,本文又提出一个简单但很有效的Grid CNN模块用于单元格合并。该模块将整个表格紧致地表示成一个网格,然后仅需借助一些堆叠的卷积层即可有效地整合上下文信息,从而实现非常高的单元格合并精度。本文的方法在多个公开数据集上都取得了当时最好的结果。不仅如此,本文还在一个更具挑战性的内部数据集上验证了该方法对有复杂结构的表格、内部有较大空白间隔的表格、有空白单元格或跨多行多列单元格的表格以及有弯曲形变的表格的鲁棒性。
其他文献
双轴取向聚对苯二甲酸乙二醇酯(Biaxial oriented polyethylene terephthalate,BOPET)薄膜具有透光率高、力学强度大、阻氧阻湿性能优异、物理和化学性能稳定等特点,在包装、印刷、光伏、光学显示以及其它特殊领域都有极其广泛的应用。随着光伏、电子电器以及新型显示行业的快速发展,对于具有特种性能的BOPET薄膜的需求越来越急迫,例如需要薄膜具有极低或极高的取向、高
<正>癌症是全球死亡的主要原因,在英国,2017年所有死亡中有28%可归因于癌症,结直肠癌、乳腺癌和前列腺癌合计占所有新发癌症病例的39%,据估计,近40%的癌症病例可以通过可改变的因素来预防。尽管已经提出了几种饮食因素会影响患癌风险的高低,但目前仍不清楚饮食模式是否与患癌风险有关。2月24日,《BMC Medicine》上发表的一篇研究论文,称每周只吃五次或更少的肉与较低的整体癌症风险有关。
气相-表面体系中的能量交换涉及许多工业应用的核心。在这种能量交换的过程中会有一部分能量耗散到表面导致表面被热化,由此造成不必要的能量损失。研究能量交换过程中的能量耗散对于调控气相-表面动力学来说具有重要意义。考虑到气相-表面体系的复杂性,目前量子动力学计算无法考虑表面自由度因而不能描述气相-表面体系的能量耗散过程,而准经典轨线方法作为探究量子分辨动力学的有效工具已经被广泛应用于各种气相-表面相互作
随着互联网应用的快速发展,用户的数据呈指数型增长,存储系统对容量以及性能的需求越来越高。保证高可靠性是存储系统的基础功能,多副本和纠删码是存储系统常用的两种容错存储策略。多副本通过多倍的冗余来保证存储系统的高可靠性。相对于多副本,纠删码能够用低存储开销提供高可靠性,但是在数据读写、降级读以及故障修复等过程中,需要大量的跨节点数据传输和编解码计算,所以网络和计算常成为性能瓶颈。一般来说,纠删码存储系
二维有机骨架材料具有比表面积大、空隙结构可调和电子结构易于调控等诸多优点,其在化学领域具有广泛的应用前景,已成为当前基础研究的热点之一。然而,二维有机骨架材料在物理领域的研究才刚刚起步,基于二维有机骨架材料的拓扑平带、量子反常霍尔效应和铁磁等新颖量子物性的研究尚不够深入。本论文结合密度泛函理论和紧束缚模型,系统地研究了二维有机骨架材料中的拓扑平带、自旋极化以及面内量子反常霍尔效应。本学位论文包括如
近年来随着深度学习技术的发展,深度神经网络在诸多领域取得了令人瞩目的成就。深度学习技术在生产生活中的广泛应用也为深度学习的发展带来了全新的挑战。特别在安全领域的应用中,决策系统的鲁棒性尤为重要,因为错误决策可能会带来生命财产的损失。因此,探索深度学习模型的鲁棒性成为了深度学习发展的重要领域。在该动机驱使下,人们发现了对抗样本现象:深度学习模型在面对恶意注入的细微扰动时显现出了令人惊讶的脆弱性。具体
气相-表面界面上的化学反应由表面上发生的能量转移和转化控制。找到一种将能量引导到适当的自由度的方式将有助于理解和指导多相催化的新发展。然而,目前还不完全了解气相分子与金属表面碰撞的过程中,分子内的振动模式如何相互耦合以及它们之间的能量是如何流动的。庆幸的是,态-态分子散射可以作为分子-表面相互作用的灵敏探针,为分子初始振动能量的流动提供非常有价值的信息。但是,由于态-态量子动力学计算的复杂性,现有
为了适应海量非结构化数据的访存需求,并克服传统关系型数据库和文件存储在可扩展性和性能等方面的不足,键值存储(简称KV存储)系统提供了很好的解决方案(具有数据模型简单,易扩展等优点),被部署在众多应用的基础存储设施中。然而,随着数据规模的不断增长及数据类型的高度复杂化,键值存储系统面临着不同层面的问题:首先,在存储引擎层,基于LSM-tree的存储架构存在严重的读写放大问题,在大规模数据存储下尤为严
能源是人类社会赖以生存的物质基础,其中太阳能作为一种可再生清洁能源,成为理想的能量来源。除了转化为热能外,太阳能的主要利用形式包括太阳能电池和光催化反应,太阳能电池可以将太阳能转化为电能,光催化反应能够将太阳能转化为化学能,可以有效弥补太阳能能量密度低、间歇性分布等缺点。这两种方式都需要用到半导体材料,涉及其光激发过程。作为一种典型的低维材料,二维材料具有较大比表面积,因此具有较大的吸光面积和较多
应用无人机解决“最后一公里”的配送问题,构建智慧创新的下一代末端配送体系,对满足日益增长的配送需求,缓解地面交通的压力,摆脱老龄化带来的劳动力短缺束缚,推动快递服务业数字化转型,带动全产业链协同发展具有重要作用。在这种情境下,基于地面车辆的配送网络与基于无人机的空中配送网络的动态整合需求尤为迫切,也对快递服务商的运营管理构成新的挑战。一方面,新增的无人机空中配送作业与已有的卡车地面配送作业尚未进行