OCR技术在简牍图像数字化中的应用

来源 :成都理工大学 | 被引量 : 9次 | 上传用户:cao240
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
简牍作为中国古代重要的一种书写材料,保存了丰富的历史文化信息,是我国宝贵的文化财富。简牍文献的数字化处理是简牍保护及其信息检索的重要研究内容,由于简牍图像具有干扰噪声大、部分文字不再使用的特点,目前市面上流行的文字识别软件很难适用于简牍图像的文字识别,这给简牍文献的数字化处理工作带来很大困难。本文深入研究简牍图像特点,在简牍图像数字化处理的各阶段进行了大量实验,提出了一系列适用于简牍图像的文字处理算法:(1)与一般文字图像相比,简牍图像的背景存在明显灰度差异,常用的二值化算法很难有效区分文字与简牍背景,针对该问题,本文提出八邻域灰度差值算法。该方法考虑到文字笔划与背景之间灰度差异要大于背景之间灰度差异的现象,先求出在文字图像内具有八邻域最大灰度差值的像素灰度值,然后根据该灰度值设计文字的二值化阈值。实验表明,八邻域灰度差值算法能有效地从简牍图像的复杂背景中提取出文字,并有效减少竹简边沿噪声的引入。(2)本文提出了适合于简牍图像的文字切分算法。该文字切分算法先利用垂直投影切分出图像中的各列文字,再就每列文字进行水平投影切分出图像中的单个汉字,针对简牍的边沿条状噪声、节点噪声及腐蚀受损噪声等,综合运用文字合并、外延扩展、剔除竹简边沿、去除大噪声点等方法,实现了文字的正确切分。经实验验证该算法具有运算速度快、易于实现、不受竹简边沿噪声影响的特点。(3)本文提出了一种快速有效的孔洞特征提取方法。该方法先利用孔洞填充算法填充文字外围空白区域,再依次填充文字内部各孔洞区域,直至文字图像中不存在空白区域。实验表明该方法能有效识别简牍文字中孔洞数量,必要时可以求出孔洞位置信息。(4)本文改进了形态学文字细化算法。针对文字细化过程中因像素误删、导致文字连通性破坏和关键信息丢失的问题,增加两个保留模板;尤其针对两个像素宽度笔划出现断裂问题,采用数组记录保留像素点坐标,在细化迭代计算过程中查询该数组避免保留像素被删除。实验表明,改进的文字细化算法有效地保持了原有文字的连通性。(5)本文实现了中值滤波算法,以简牍图像为样本,对滤波参数进行整定,达到有效滤除简牍图像中椒盐噪声的目的;本文采用了双内插值算法对单字图像进行归一化处理,实验结果表明双内插值算法对图像缩放处理时可以保留大部份文字信息。(6)本文初步研究几个常用的文字特征,选取在简牍图像中表现较为稳定的孔洞、特征点及水平垂直投影等特征,并实现上述文字特征的提取算法。本文研究过程中注重理论结合实践,以应用为目的,充分协调项目的进度、资源及质量,选取下列平台作为研究的基础:1)以Internet、中文科技期刊数据库、中国优秀硕博士论文数据库及学校图书馆作为信息来源;2)以X86桌面PC作为通用硬件平台;3)以Windows XP作为开发、应用软件平台;4)开发环境采用Visual Studio.NET,软件框架采用MFC,图像库选用Paintlib,编程语言选用C++。通过选定上述研究平台,使研究成果可以快速转化为应用,同时有效减少辅助性质的工作量,使作者可以专注于技术难点、重点的研究。
其他文献
碾压混凝土坝以其快速、经济、安全的优越性被快速推广。文章主要从碾压(变态)混凝土施工配合比、工艺参数、过程质量控制以及工艺创新等方面介绍了大华桥水电站大坝碾压混凝
目的:观察丁苯酞对脑缺血再灌注大鼠脑组织胰岛素样生长因子(IGF-1)表达的影响。方法:将50只SD大鼠随机分为假手术组(n=10)、脑缺血再灌注组(n=20)及丁苯酞治疗组(n=20),脑缺血再灌注组
目的:验证电针结合天麻素对局灶性脑缺血大鼠额叶皮质生长相关蛋白-43(Growth-associated protein,GAP-43)和突触素(Synaptophysin,SYN)表达是否有协同增效作用。方法:SD大鼠