论文部分内容阅读
西夏(公元1038-1227年)是以我国古代党项族为主体建立的封建王朝,国号大夏。地域包括今宁夏、甘肃大部,陕西北部、内蒙古西部和青海东北部。首府兴庆(今宁夏银川市)。西夏文是记录西夏党项族语言的文字,曾在西夏王朝统治的地域被广泛使用。西夏王朝亡于蒙古后,党项民族融合于其他民族之中,西夏文字随之逐渐消亡,文献典籍渐被湮没,在近千年的时间里被人遗忘。直到20世纪初在内蒙古自治区额济纳旗黑水城遗址,大量西夏文物和古籍文献被发现,西夏学研究开始兴起。针对被遗忘近千年的西夏文字的研究是西夏历史文化研究的重要组成部分。将现代计算机信息技术应用于西夏文字的处理以及西夏文古籍文献的研究、整理和保存,在当前数字化的时代势在必行,将大幅度提高西夏学的研究效率,有力推动西夏学学术研究的发展。具有重要的研究价值和十分广阔的应用前景。本文围绕图像处理、模式识别、深度学习等人工智能技术手段,针对西夏文字数字信息化的若干关键问题进行研究,主要内容包括:1)改进的霍夫变换在文字笔划检测识别中的应用研究。基于霍夫变换基础几何图形检测的功能,本文提出端点引导的霍夫变换方法,利用线段端点信息在霍夫变换检测直线过程中降低运算负荷,提高容错率,并通过引入假设线段长度因子有效改善传统霍夫变换对短直线的检测能力。本文提出的改进的霍夫变换算法可以有效应用于西夏文字笔划的检测。2)西夏文字样本数据集的建立。目前尚未有公开发表的西夏文字样本数据集为西夏文字识别提供训练样本和测试样。西夏文字识别研究缺乏规范的样本数据集和统一的测试标准。针对这一问题,本文研究从西夏文古籍文献中提取字符样本,经过字符图像归一化和文字类别标签标定等一系列工作,初步完成了西夏文字样本单字数据集和文本数据集的建立,并提供了数据集的使用和测试范例。该工作填补当前西夏文字识别研究领域的一项空白。3)西夏文字样本集样本不均衡分布问题分析及样本扩充方法研究。在西夏文字样本数据集的建立过程中,由于受到数据源固有因素的约束,数据集在样本类别间体现出不均衡分布。不均衡数据是指样本训练集中的类别分布存在某一类的样本数量明显少于其他类的比例或数量。样本的不均衡分布导致少数类样本实例的分类准则难以提取,数据的不均衡比例越高,提取少数类样本的特征信息越困难。针对这一问题,本文对采用GAN(Generative Adversarial Network,对抗生成网络)应用于西夏文字样本的生成进行了研究。此外,本文还提出基于MLSD(Moving least squares deformation移动最小变形)的样本合成扩展方法,对样本数量少的类别进行样本扩充。经试验证明,扩充后的均衡分布样本数据集作为训练集,对提高识别率有明显促进作用。4)基于深度学习的西夏文字识别研究。以西夏文字样本数据集作实验对象,本文采用神经网络和深度学习算法对西夏文字识别进行研究,基于不同的深度学习平台进行了识别模型设计、模型训练以及识别测试。在验证各类算法模型的西夏文识别效果的同时,也证明了本文所提出的西夏文字样本集合成扩展在提高识别率方面的有效性。综上所述,本文以西夏文字数字信息化为主要方向,围绕以西夏文字识别为核心的若干问题进行了讨论和研究,在西夏文字样本数据集的建立,不均衡样本扩充,西夏文字识别等方面开展了较为深入的研究工作。