【摘 要】
:
文档布局分析(Document Layout Analysis,DLA)作为文档理解的重要上游任务,目的是正确划分文档中的文字、图片、表格等不同元素。随着办公自动化普及,文档积累速度呈指数级增长,很多研究者都致力于探索通用DLA处理模型。随着深度学习发展,很多大容量模型被提出,但这些模型训练需要大量数据。目前通过生成方式可以产生大量训练数据,但它们忽略了对生成文档的质量评估。此外,布局较为复杂的文
论文部分内容阅读
文档布局分析(Document Layout Analysis,DLA)作为文档理解的重要上游任务,目的是正确划分文档中的文字、图片、表格等不同元素。随着办公自动化普及,文档积累速度呈指数级增长,很多研究者都致力于探索通用DLA处理模型。随着深度学习发展,很多大容量模型被提出,但这些模型训练需要大量数据。目前通过生成方式可以产生大量训练数据,但它们忽略了对生成文档的质量评估。此外,布局较为复杂的文档不能通过现有生成方式获得,依然需要依靠人工标注。本文从人机协同角度出发,设计了一套基于变分自编码器的样本生成方案,并提出一种基于K-近邻算法的文档图像质量评估算法,最后基于质量评估值改进布局生成模型。本文的工作具体包括:(1)提出一种基于变分自编码器的DLA任务训练样本生成方法:首先基于长短时记忆网络设计一个变分自编码器模型,用于布局信息生成;然后通过修改现有损失函数解决布局数据稀疏问题;最后从素材库挑选合适的图像素材填充生成文档图像并生成标签文件。为了验证生成模型泛化性,本文收集了246张复杂布局的杂志图片,经手工标注后组成Billboard数据集。本文在DSSE-200,CS-150以及Billboard数据集上进行了实验,与只使用数据集训练DLA模型相比,使用本文方法增加训练数据后,在DSSE-200上F1提升3.58%,在CS-150上F1值提升1.36%,在Billboard上提升1.87%。实验还将本文的样本生成方法与已有的两种DLA样本生成方法(基于LaTeX规则生成,随机翻转裁切增广)进行比较,本文生成方法扩增训练数据后训练的DLA模型性能更好。(2)提出一种基于K-近邻算法的文档图像质量评估算法,用于评估生成样本的质量:首先使用卷积神经网络获取文档图像的高维特征,然后计算特征距离并使用K-近邻算法动态评估特征相似性,最后根据特征相似度筛选高质量文档。本文使用该评估算法对生成样本进行筛选,仅使用其中10%的高质量样本训练DLA模型。在CS-150上,F1提升1.77%;在Billboard上,F1值提升3.69%。实验证明,利用本文方法进行样本筛选后,在训练数据总量减少的情况下能够提升模型性能。(3)基于(2)中提出的质量评估算法改进布局生成模型:基于变分自编码器的生成模型没有对生成结果进行评价,导致模型生成样本质量不高。为了弥补这个不足,本文使用文档图像质量评估结果优化损失函数,指导文档布局生成模型学习生成更高质量的布局信息。实验表明,使用新的损失函数训练模型后,在Billboard上F1值提升2.4%。
其他文献
随着信息技术的蓬勃发展,互联网业务量及用户数量急剧增长,当前因特网数据信息的存储模式、共享方式、转发机制、服务质量与用户对网络不断增长的需求已成为当前互联网技术发展的主要矛盾。不同于目前基于IP协议的信息获取方式,未来互联网用户将更多地关注数据信息的内容而不是其所存储的位置。因此,基于数据内容的信息搜索方式将成为未来互联网体系架构的主要特点。作为下一代互联网体系结构的典型代表之一:信息中心网络(I
钢铁企业能源消耗巨大,污染排放严重,节能降耗是实现钢铁企业可持续发展的重要举措。通过协同调度各种能源、资源的合理使用,可以提高能源利用水平,降低能耗。煤气、蒸汽、电力是钢铁企业能源系统中重要的三种二次能源,并且相互之间存在转换,通过研究煤气、蒸汽、电力三种能源的协同转换和优化使用,对于推进钢铁企业节能减排和降低能源成本具有重要的理论指导和实际应用意义。论文主要研究内容如下:首先,分析了钢铁企业能源
高分二号卫星是我国自主研制的高水平民用遥感卫星,通过融合其空间分辨率较高的全色图像和光谱分辨率较高的多光谱图像,能够生成空间分辨率较高的多光谱图像。针对遥感图像融合,由于传统算法存在建模复杂、在光谱信息保持和空间细节增强两方面难以达到较好的平衡、性能受限于引入的先验假设等不足,基于卷积神经网络的研究开始兴起。与传统算法相比,这些研究在光谱信息保持和空间细节增强之间取得了更好的折中。然而,这些研究在
再制造作为循环经济的重要环节,通过各种先进的修复技术将回收的废旧产品恢复到不低于新产品性能的状态,是一种社会、经济、环境三赢的绿色产业,对于应对日益严峻的资源和环境挑战具有重大意义。再制造工艺规划是再制造的关键技术之一,影响了再制造的效率、成本以及再制造产品的质量。回收的废旧零部件因为服役环境的差异性而具有不确定性,需要定制化的修复策略,增加了再制造工艺规划的复杂程度。而且当前的再制造工艺规划很大
随着深度学习技术不断进步,在智能自然语言处理领域的应用也越来越普遍,智能自然语言问答处理系统是智能语言处理领域的一项重要成果,逐渐发展壮大。但是现有的各类智能自然语言问答处理系统,仍然普遍存在过度的依赖于特征分析工程和基于词频的统计特征等的问题,无法捕捉到自然语言文本的上下文相关信息。因此,针对以上的问题,本文将通过结合现有的深度学习方法与自注意力机制对智能问答系统的应用展开深入的研究,具体工作如
近年来,随着我国现代化建设及城市化进程的快速推进与发展,我国公共工程建设步伐日益加快,建设规模庞大,发展速度稳健。经过多年的推进与规范发展,公共工程建设在我国已显示出它独有的规模、活力和价值。同时,公共工程社会风险潜在危机一直存在,大规模快速的发展无形中提高了项目风险,十分不利于产业的可持续发展,若发生突发事件可能扰乱社会公共秩序,诱发群众与政府矛盾,打破原有社会平衡,导致社会系统紊乱、政府公信力
在油田的油井采油过程中,很多过程变量由于技术或成本的问题难以通过在线采集得到。这些过程变量却又关系着油井的采油效率和油液产量,是实现控制及优化石油生产过程的重要参数。为了能够解决生产上的这一问题,采用一种软测量技术对相关过程变量进行预测。软测量技术通过建立辅助变量和目标变量之间的函数关系模型,能够实现利用容易得到的辅助变量来预测难以得到的目标变量的目的。在现阶段的油田生产过程中,对于产出油液的含水
自旋压缩态是多体纠缠态的一种典型例子,它是量子计算,量子通信和量子精密测量等量子技术的重要组成资源,本文以两个空间分离的双模冷原子自旋压缩态为主要研究对象,介绍了其制备方法,同时为了观测到其贝尔关联,提出并分析了几种可以观察到违反Clauser-Horne-Shimony-Holt(CHSH)贝尔不等式的方法。首先,为了制备贝尔关联态,我们利用改变自旋的碰撞来制备一个双模压缩BEC。然后通过控制空
随着数据存储能力的日益强大,以及数据生成和收集技术的进步,现实应用中产生并收集了大量的数据。其中,类别分布不平衡数据集广泛存在于各个领域,传统模型应用于不平衡数据分类往往会失效,是因为它们是建立在各类别样本数量相等且误分类代价相同的前提下。如何从类别不平衡数据中挖掘信息并进行模型构建吸引了越来越多研究人员的关注,随之提出了大量针对不平衡数据分类的方法。然而,当面临数据极度不平衡、正负样本重叠严重和
在我国全面建设和实现小康社会的进程中,政治、经济、文化等方面都取得了令人可喜的成果,但同时人口老龄化程度的不断加深也给社会的良序发展带来巨大挑战。相较于国外先富后老的社会发展历程,我国现阶段正处于未富先老的状态,需要在大力发展经济的同时兼顾人文建设。城市养老问题也是城市人文建设的重要一环,目前很多城市养老服务的供给都呈现出“资源有限,服务质量不高”的特点,而养老服务承载力的研究不仅对供给侧进行深化