基于自然笔画拆分的手写文字识别方法

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:zhujunhong778
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在手写识别系统中,手写文字特征提取大都是结合不同语言文字的本身特征采用统计的方法来实现。对于汉字来说,中文汉字不仅类别数多而且还包含很多相似字,另外复杂的汉字形状结构,不同书写人书写的风格差异使得手写汉字的变形很大。目前提取汉字特征时,大多用到汉字基本单元包括横、竖、撇、捺等汉字特有的结构特征,并结合有效的统计特征作为其文字特征。然而由于手写风格的多样化,提取文字的基本单元是一件很困难的事情,而文字特征的正确提取对文字识别系统又有直接的影响,因而探讨如何从手写文字中提取到一种通用且稳定的结构特征就有重要意义。本文在考虑手写文字字形多样化以及不同用户书写习惯等情况下,提出一种基于自然笔划拆分的手写识别方法。本文提出的方法主要包括三个阶段:首先对采集到的手写文字进行自然笔划拆分,获得文字拆分单元。文中我们提出了三种语言无关的拆分规则,分别是基于坐标点之间斜率、曲率的拆分规则及其混合规则;然后本文对上一阶段得到的拆分单元进行归类,并分别根据人工定义的基本单元类别以及根据聚类算法进行基本单元的归类;最后本文采用基于卷积神经网络的分类方法实现文字的识别。由于仅仅以拆分后文字单元类标构成的特征矩阵过于稀疏,文中还研究了为每一文字增加模糊特征重新构造其特征矩阵并进行分类识别。实验中,本文所采用的方法以华南理工采集的SCUT-COUCH2009、哈尔滨工业大学深圳研究生院采集的HIT-OR3C以及中科院采集的CASIA-OLHWDB1的数据集进行训练,以哈尔滨工业大学深圳研究生院HIT-OR3C下面的20套文档集为实验数据。实验发现,本文提出的手写文字表示的高层特征在直接用于分类识别时并未达到预期的效果,但通过采用CNN直接在拆分前后的文字原始特征上建立的识别方法表明,基于自然笔画拆分的模型比没有拆分笔画的模型更具有泛化能力,在单字识别的错误率上降低了27.38%,首选识别正确率达到了95.28%。
其他文献
对聚落的研究在近现代建筑史上一直方兴未艾,特别是在当今城市化进程加快的情况下,显得极为有意义。众多学者从不同角度去研究分析聚落的不同层次和内容。笔者认为聚落的问题
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
期刊
随着互联网技术的迅速发展,电子商务在当前贸易活动中的应用越来越广泛。电子商务模式在帮助企业提升经济效益的同时,也给企业的财务管理模式带来了创新和改变。探讨了电子商
针对气泡水平尺大角度偏斜工件的自动矫正问题,对深度学习目标检测领域的模型进行了研究,设计了一种基于深度学习的自动矫正方案。在不同光照条件的气泡工件图片样本集上,采
[目的]探讨芳香辟秽法治疗新型冠状病毒肺炎(简称新冠肺炎)的理论依据与应用策略。[方法]总结中医学治疗瘟疫的历代文献及实践应用,梳理芳香辟秽法脉络,结合新冠肺炎的临床特
情系舞台(选摘之二)陈素真在杞县演戏我1930年阴历八月十六到了杞县,在县城只过了个夜,就直奔到离县城约50华里的南板木乡吴庄去演戏。我在开封唱砸之后,大人们叫我别再用本嗓了,改用假嗓
意识形态建设是中国共产党一项具有战略意义的重要工作。十八大以来,党对意识形态工作更加重视,认识更加深刻,目标更加明确,效果更加明显。党的十九大更是对中国特色社会主义
河南省尉氏县机关事业单位社会保险管理中心以创建"优质、高效、廉洁"的社会保险经办机构为目标,培养了一支政治过硬、业务优良、具有良好职业道德修养的工作队伍,以扎实的工作
在当前医院档案管理工作中,通过实现档案网络化管理,有效提高了医院档案管理的工作效率,规范了医院档案管理的模式,有力推动了医院档案管理网络化建设的进程.