论文部分内容阅读
蒙古文古籍是研究蒙古族历史文化的重要资源,为了加强对蒙古文古籍的保护,提升蒙古文古籍在研究中的利用率,越来越多的蒙古文古籍被转化成数字图像形式。但是蒙古文古籍图像不能直接编辑,无法进行有效分析、统计和检索,因此对蒙古文古籍图像进行识别并将其转化为可编辑的电子文档是一项十分有意义的工作。然而,蒙古文古籍采用木刻雕版印刷,因此蒙古文古籍存在着字体形变过大的特点,并且蒙古文古籍成文年代久远,因此,存在着不同程度的污损、缺失与褪色,由此导致了蒙古文古籍单词图像质量低下,这给蒙古文古籍单词图像的识别带来了极大的不便。现今,对蒙古文古籍识别的研究相对较少,主要基于字元切分的方法,即,将待识别的文字切分成字元,以字元作为识别单位,并在此基础上的多知识策略的方法,其存在如下问题:第一、只能适用于高质量,噪声较少的蒙古文古籍单词图像。第二、字元切分的准确性是决定识别结果的重要因素。本文主要研究基于深度学习的蒙古文古籍整词的识别技术,目的是为了解决以往在蒙古文古籍单词图像识别中存在的字元难以有效切分及对图像噪声敏感的问题,希望通过对蒙古文古籍整词进行识别来进一步提升识别正确率。本文以蒙古文古籍《甘珠尔经》为素材,对蒙古文古籍整词识别技术进行了探索,本文的主要研究内容如下:(1)本文使用的实验素材来源于内蒙古大学图书馆的数字化《甘珠尔经》,从中随机选取100页,经过版面分析、二值化、最终切分为20176幅蒙古文古籍单词图像作为实验样本,并将其分为1336类,并且每个样本都进行了人工的标注,由于存在个别类中样本数量过少的问题,即数据集分布不平衡问题,本文采用SMOTE技术(Synthetic Minority Over-sampling Technique)进行样本的扩充。扩充后样本总量达到267200张,作为本文实验的新数据集。(2)针对蒙古文古籍单词图像质量不佳、单词图像进行字元切分时难度较大的问题。根据深度学习在图像识别领域取得的优异性能,以LeNet-5模型作为实验基础模型,本文提出了改进的基于卷积神经网络(Convolutional Neural Network,CNN)的蒙古文古籍整词识别技术和基于循环神经网络(Recurrent Neural Network,RNN)的蒙古文古籍整词识别技术,分别通过改变图像尺寸、训练次数、数据集分布平衡性及循环神经网络中输入粒度大小等因素来观察对模型识别能力的影响,并对卷积神经网络与循环神经网络的表现性能进行了实验结果的对比。(3)上述的整词识别方法,不能解决集外词识别的问题。在此基础上,结合长短期记忆网络(Long Short-Term Memory,LSTM)的优越性,本文又提出了基于CNN-LSTM的蒙古文古籍整词识别方法,虽然识别正确率达到84.5%,低于CNN和LSTM的识别正确率,但成功的解决了集外词的问题。