【摘 要】
:
十五世纪后的朝鲜古籍中不仅包含朝鲜文字,还包含汉字、满文、蒙古文等文字,且排版多采用多文种混排形式。朝鲜语古籍这种多文种混排的特点为古籍图像的字符识别和切分带来了困难,影响了朝鲜语古籍的数字化进程。直接识别多文种文字图像会增加字符识别算法的复杂度、降低识别效率和准确率,所以多文种辨识是古籍全文文本数字化的前提和基础。另外,大量研究证明,对于文本图像很难找到一种普适性的版面分析和处理算法。所以,多文
论文部分内容阅读
十五世纪后的朝鲜古籍中不仅包含朝鲜文字,还包含汉字、满文、蒙古文等文字,且排版多采用多文种混排形式。朝鲜语古籍这种多文种混排的特点为古籍图像的字符识别和切分带来了困难,影响了朝鲜语古籍的数字化进程。直接识别多文种文字图像会增加字符识别算法的复杂度、降低识别效率和准确率,所以多文种辨识是古籍全文文本数字化的前提和基础。另外,大量研究证明,对于文本图像很难找到一种普适性的版面分析和处理算法。所以,多文种混排古籍图像的字符切分仍是文本切分领域未解决的问题之一,具有一定的研究意义和现实应用价值。为了更好地推进朝鲜语古籍数字化进程,本文在研究古籍图像文种辨识方法的过程中针对朝鲜语古籍多文种混排,字体大小不一,字间距变化大,粘连情况复杂的特点,研究并提出了适用于这类特点的古籍文字切分方法。首先,提出了一种连通域规则和投影法结合的古籍图像列切分算法。该算法不仅能够去除古籍中存在的分隔线,还可对粘连列进行切分。有效地解决了朝鲜语古籍中间隔线存在间断、倾斜或者列之间存在粘连等问题。其次,提出一种基于连通域规则的多步字切分算法,对古籍列图像中的文字先进行粗切分再进行细切分。这种多步字切分算法对多文种混排,字符大小不一,字符横向、纵向混合排版的古籍图像切分效果良好。针对粘连字符个数未知,粘连方向未知的粘连字符图像,本文还提出一种k-means改进的递归滴水粘连字切分算法,实现了复杂粘连文字图像的准确切分。然后,利用切分出的文字图像建立了相似文种古籍文本图像库。最后,本文对相似文种古籍文本图像库中的文字图像进行了字符级别的文种辨识研究,利用深度学习中的Inception-v4卷积神经网络模型实现了的高准确率文种分类,解决了传统机器学习方法对朝、汉相似文种分类错误率高的问题,为进一步研究朝汉字符识别算法提供了准确可靠的数据样本集。实验结果表明,本文研究的朝鲜语古籍列切分算法准确率为97.69%,字符切分算法准确率为87.79%,字符级古籍图像的文种辨识准确率为99.40%。证明本文提出的古籍图像列切分算法和字切分算法能够有效地完成具有多文种且排版复杂的古籍图像的切分工作。同时,本文研究的利用卷积神经网络的文种辨识方法对存在大量噪声的朝、汉相似文种古籍图像具有很好的辨识效果。
其他文献
背景基于分子学和免疫组织化学特征可以用于区分弥漫性大B细胞淋巴瘤(DLBCL)的各种亚型,DLBCL典型的免疫表型表达为CD20+,CD45+和CD3-,以及一些推荐的补充监测标记用于帮助确定肿瘤细胞来源和初步判断预后。众所周知,CD5是所有T细胞表面标志物,很少在DLBCL中表达。日本有关研究指出CD5阳性亚型与不良预后有关,而目前中国患者中尚缺乏对于原发CD5+DLBCL的大规模样本研究。方法
随着个人无线终端设备的推广,越来越多的基于无线通信协的多模式射频系统被集成在一个设备中,对射频系统提出了集成度提高、功耗和面积减少、可靠性增加等要求。传统上,解决
目的:建立基于临床和实验室指标的改良序贯法评估发热新生儿,并将其与实验室评分进行比较,评估改良序贯法在发热新生儿的应用价值。方法:选择2015年10月至2017年10月入住新生儿病房的230例发热新生儿进行回顾性研究。采用改良序贯法对研究样本进行准确性分析,并比较改良序贯法与实验室评分对发热新生儿病情评估的准确性。结果:230例既往无疾病史的足月发热新生儿中112例(48.7%)被诊断为败血症,按
比较是日常生活中人们认识新事物经常使用的一种重要手段,是指通过比较两个事物之间的共同点或不同点来更好地了解新事物的过程。这种比较手段通过语言来表示就是比较句。比较句是每个语言中都普遍存在的一种语法范畴,而各个语言中的比较句既有共性、又存在个性。对比各语言间比较句的异同对二语学习者来说具有十分重要的意义。本文通过对韩语近似比较句和汉语近似比较句系统的对比分析,以期达到揭示两种语言的近似比较句在形态、
目的:分析胸段食管癌患者术后淋巴结转移度(LNR)的相关影响因素分析及其与术后失败模式的关系,同时分析淋巴结转移度与术后辅助治疗模式对生存的影响,为筛选术后辅助治疗患者提供临床依据。方法:收集从2007年1月至2010年12月,在河北医科大学第四医院胸外科接受经左胸或右胸入路的胸腹两野淋巴结清扫术的胸段食管癌患者1416例进行回顾性分析。对全组患者的预后因素进行分析,探讨淋巴结转移度与传统预后影响
背景研究在ASS1(argininosuccinate synthetase 1)缺乏的消化道肿瘤中,新型精氨酸脱亚胺酶包合物ADTHL及ADTSL的生物学功能及相关机制,为消化道肿瘤的治疗及预后提供新的有效治疗方案。方法通过半定量PCR,分别检测了ASS1在肿瘤细胞及组织中的表达;运用CCK8、AOEB、流式、透射电子显微镜检测等实验,分别检测ADTHL及ADTSL对增殖、周期和凋亡的作用;最后
目的探究荭草苷对APP/PS1转基因小鼠认知功能的影响及其可能的作用机制。方法实验动物分为3组:7月龄的转基因模型组(Tg)和荭草苷处理转基因组(Tg+Ori)各8只,8只同月龄的野生型C57小鼠作为正常对照组(NT)。Tg+Ori组连续30天每天腹腔注射荭草苷(10 mg/kg),NT和Tg组注射同等剂量的生理盐水。水迷宫试验检测学习记忆能力,免疫组化染色检测小鼠脑内β淀粉样蛋白(Amyloid
数字式生物检测方法由于灵敏度高、能实现目标分子的绝对计数,近年来成为体外诊断领域的重要发展方向。目前的数字式生物检测方法(数字PCR和数字ELISA)主要通过物理隔离的方
杜氏藻(Dunaliella)是一种嗜盐的单细胞微藻,常见于海洋、盐湖等无机盐含量较高的水体当中,是目前已报道的具有较强耐盐性的真核生物,其细胞形态、生理和生化指标依据周围环境进行变化。杜氏盐藻现已被工业化产业大量应用,可以用于规模化生产β-胡萝卡素、油脂、藻多糖以及固醇类化合物等活性物质。本研究对20株品系不同的杜氏藻进行形态、生理生化指标的测定,在此基础上,形态学联合分子生物学技术对杜氏藻属进
目的检测破骨细胞分化因子(receptor activator of nuclear factor-κB ligand,RANKL)、基质金属蛋白酶2(matrix metalloproteinase-2,MMP-2)在外耳道胆脂瘤(external auditory canal cholesteatoma,EACC)和外耳道皮肤(external ear canal skin,EACS)中的差异