蒙古文铅活字报纸图像识别关键技术研究

来源 :内蒙古大学 | 被引量 : 0次 | 上传用户:xufei777
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
蒙古文铅活字印刷技术的发明给我国蒙古民族文化和教育的发展带来了非常深远的影响。活字印刷实现了批量化、规模化生产,大大降低了刻印成本、缩短了工作时间,提高了印刷效率。然而,受制于蒙古文铅印报纸图像标注数据集稀缺与数字化技术的不成熟,目前,蒙古文铅印报纸图书的保存方式仍以纸张形式和扫描图片形式为主,不利于它们的长期保存和开发利用。因此,如何将资料文献、报纸图书转录为电子文档以便于长期保留和二次挖掘成为了亟待解决的问题。蒙古文铅活字报纸的数字化主要面临以下挑战:数据收集过程中图像转录文本中的大量标签噪声,会导致模型泛化能力下降;铅活字报纸不同于规则的印刷文档图像(版面单一、文字规整),其版面元素多样、布局复杂紧凑,且由于年代久远导致页面褪化,存在字迹模糊、文字扭曲、墨水褪色、渗漏、报纸受损等问题。为图像版面分析和文本识别带来了巨大的挑战。此外,蒙古文文本存在大量的外形正确但编码错误的词。现有的基于词典和规则的孤立词校正方法无法解决集外词错误和句法语义错误。本文针对以上问题,对报纸图像数字化任务中的关键技术:数据集构建、图像版面分析、文本识别、标签噪声处理、文本校正技术展开研究。研究内容和主要工作包括以下四个方面:(1)针对数据资源稀缺问题,本文分别构建了蒙古文铅活字报纸图像版面分析数据集、三种文本粒度的段落标注图文对齐语料库和文本校正语料库,以分别支撑铅活字报纸图像版面分割、文本识别、识别后文本和训练集语料库文本校正任务。版面分析数据集的构建采用半自动页面标注工具——Aletheia进行页面区域框标注和分类;图文对齐语料结合人工转录文本和预训练文字识别模型完成构建;文本校正语料库以人工录入、网络爬取、自动校正等手段构建,包括词干词缀语料库、多音词语料库和整词库。(2)针对相邻区域误合并、版面区域漏检等经典版面分割难点问题,提出了基于无提议的全景分割的版面分析方法——Panoptic-DLA。与以往将布局分析作为单独的目标检测或语义分割问题不同,该框架将版面分析任务定义为无提议的全景分割任务,通过语义分割和实例分割两个解耦分支,为文档图像中的每个像素赋语义标签和实例类别。语义分割分支采用Deep Lab v3+对前景像素及背景像素作像素级语义类别预测,提高了前景像素的检测率。实例分割分支对文本中心-边界概率和文本中心-方向进行建模,为模型加入了区域形状信息。版面分析数据集及其他两个公开评测数据集上的实验结果表明,该方法获得了最高的前景像素检测率,并有效地减少了区域误合并错误的发生。(3)针对训练集中噪声标签影响模型泛化能力问题,提出了课程网络指导的标签噪声检测方法——MSL-Mentor Net。该课程网络以样本多个时间步的损失值序列作为衡量样本难度的标准。在报纸图像识别数据集和手写数字识别数据集MNIST上的结果表明,相比于只关注模型当前状态的“小损失”启发式样本选择或加权方法,该方法获得了更好的标签噪声检测性能。此外,针对早期铅活字报纸字形弯曲、字迹模糊、字符漏印等问题,提出采用TRBA(TPS+Res Net+Bi LSTM+Attention)框架作为铅活字报纸识别任务强基线系统。该网络在编码器之前加入转换层对图像进行弯曲校正,并在解码阶段加入隐式语言模型进行上下文语义建模。基于图文对齐语料库,分别实现了单词级和文本行级两种文本粒度的段落文本识别框架。实验结果表明,转换层和语言模型能有效提升文本识别性能。(4)针对蒙古文国际标准编码文本中一形多音导致的字形正确但编码错误的单词,提出了结合规则、词典、深度学习的多模块编码校正系统。该系统解决了孤立词识别及统计模型对句法语义错误和稀疏词校正的受限问题,依次完成对单音词、集外词、多音词、格后缀的编码校正。具体步骤为:首先,通过词典匹配完成单音词校正,并为多音词和格后缀提供相同字形的候选词集合;其次,采用Evolved Transformer对集外词进行序列预测;然后,采用context2vec上下文表征技术完成多音词词义消歧任务,提高低频词校正准确率,有效解决了多音词语料库稀疏问题;最后,基于规则方法完成格后缀校正。实验结果表明,训练语料库和词级别识别后文本进行自动校正之后,其拼写准确率分别提升了13.18%和4.14%。综上所述,本文围绕蒙古文铅活字报纸图像数字化过程中的数据集构建、版面分析、文字识别、文本校正等四个关键问题进行深入研究和讨论。此外,本文将所提出的方法也在多个公开数据集上进行测试,均取得较好结果。这表明本文所提出的相关方法,对其他语言文档图像的数字化任务也有一定的参考和借鉴意义。
其他文献
选取闽南师范大学体育学院2020级40名无游泳基础的学生,随机分为实验班(直臂自由泳)和对照班(屈臂自由泳),进行为期10周的教学实验,第5周和第10周对划频、划幅、游速、动作技术进行对比测试,探讨高校体育专业学生自由泳教学过程中采用不同移臂技术(直臂移臂和屈臂移臂)对教学效果的影响。结果表明在第5周测试时,直臂自由泳在划频、划幅、游速、最大游距、动作技评方面均优于屈臂自由泳,且具有显著性差异(P
水库水温时空分布的变化对库区及下游河道环境及水生生态系统等产生重大影响,水库水温研究对库区及下游河道生态环境保护具有重要意义。本文回顾了国内外水库水温研究历程,介绍了主要的水库水温结构判别方法和水库水温研究方法,重点论述了水库水温机理性模型与智能算法模型的最新动态及前沿进展,总结归纳了水库水温分层特性、生态环境影响及其改善措施的最新研究成果,提出了未来重点研究方向。
细胞自噬是利用溶酶体对细胞内多余、受损、死亡的蛋白质和细胞器进行降解的一种过程。细胞受到病毒等刺激时,为了维持内环境稳态,细胞自噬常有发生,虽然细胞自噬可以有效抵抗病毒入侵,但这个过程也会对病毒感染产生负作用。猪丁型冠状病毒(porcine deltacoronavirus,PDCoV)感染细胞时会引发细胞发生自噬现象。本文从自噬的种类和发生流程、自噬与PDCoV互作及相关检测方法等方面,对细胞自
目的 观察导乐分娩护理联合分娩球模式对初产妇自然分娩的影响分析。方法 拟于(2020年2月-2021年2月)广东省中山市博爱医院进行分娩的初产妇总计300例,以随机数字表法分两组,初产妇实施常规的分娩模式进行分娩为对照组,另150例初产妇实施导乐分娩护理联合分娩球模式为试验组。比较两组产妇不同产程所用时间及疼痛评分、产妇产道损伤的程度及分娩结局。结果 试验组第一、二、三产程时间短于对照组,疼痛评分
市场监管现代化是建设社会主义现代化国家的重要组成部分。在分析我国市场监管现代化背景基础上,从中国现有监管机构缺乏明确法律地位和应有权威性、现行政府监管法律制度体系存在短板弱项、市场监管联动推进任务重难度大、市场监管权责脱节和风险叠加问题突出、市场监管不适应“互联网+”新业态发展需要等五个方面剖析了我国市场监管存在的突出问题,从依法厘清监管职责界面、稳健推进监管机构改革,创新事中事后监管原则、实现新
为探究草酸对杏果实采后黑斑病的控制效果,本试验以“赛买提”杏为试材,采用2、4、6 mmol/L草酸对杏果实进行减压渗透处理,晾干后,置于温度和湿度为(1±1.0)℃、90%~95%的条件下,贮藏48 h后,损伤接种交孢链格孢(Alternaria alternata,A. alternata)并在相同条件下贮藏。定期测定苯丙烷代谢相关指标,孢子萌发率、菌落直径。损伤接种试验结果表明,在第49 d
<正>我住在翠竹山脚下,书房外是四季常青的翠竹山,窗外鸟鸣啁啾。我常翻阅一册古籍,等待东方的第一缕晨曦。我也常等待月上中天,如水的月华灌满书房,在月亮姥姥的轻抚里,枕一席书香,安然入睡。我爱读书,尤爱古典文学,常沉醉于书香,不知不觉间,简朴的书房也变得神奇。
期刊
<正> 在任何一门实验教学或实验研究工作中,误差问题是一个非常重要的问题,它始终以“量”的概念在整个教学或研究过程中体现出来,而且与实验教学或研究工作的全过程有着密切的联系。物理化学实验和其它实验研究工作一样,一方面要对实验方案进行分析研究,选择适当的测量方法进行数据的直接测量,另一方面还必须将所得数据加以整理归纳,以得到某些重要的经验规律。但由于仪器和感觉器官的限制,实验数据只能达到一定程度的准
期刊
乡村振兴和新型城镇化建设呈现出价值相通性、目标趋同性、主体一致性、政策共融性的特点。要素流动视角下,构建城乡互促共生的有机生命体必须协同推进乡村振兴战略与新型城镇化战略。乡村振兴和新型城镇化战略耦合内在动因源自于城乡要素渗流通道梗阻;价值范式为市场经济理性规则、政府有效政策供给与政策引导“双轮驱动”,载体依托为县域城镇化。乡村振兴和新型城镇化战略耦合的路径重构需要秉承系统治理理念,摒弃“碎片化”治
近几年,随着城市化进程快速发展,城市发展当中有一项很重要的组成部分就是市政给排水工程,这项工程也逐渐受到各界广大重视。相关部门一定要不断将给排污管道预制检查井的施工技术能力提高才能进一步确保工程项目施工质量和安全性,最后能进一步推动当今社会的健康稳定发展。通过更科学合理地使用市政工程排污管道预制检查井施工工艺,除了能够将城市雨水和污水的排放量提高以外,还能有效将人们的生活质量提高。所以,本文专门针