基于字典驱动的小样本中文邮政地址识别

来源 :武汉理工大学 | 被引量 : 0次 | 上传用户:superdai
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近五年,我国邮政信函、快递业务量保持20%的年均增长率,传统依靠手工进行邮政信函分拣模式难以胜任业务量的高速激增需求。目前一些自动邮政分拣系统主要通过建立信件上的条形码、标识码与邮编号码或地址信息的对应关系来实现信函的自动分拣,其邮编或地址通常是通过终端人工输入,在大量信函集中处理时,费时、费力、效率极低。利用图像识别方法,依靠机器自动识别信函上的邮编及地址是一种非常有效、快速的分拣手段。利用信封上的邮编识别来实现自动分拣,会由于邮编空缺、书写不规范或错误,导致依照邮编识别会出现地址投递区域错误,造成信件延误或者丢失情况。为改善邮政地址和邮政编码单独识别率受限状况,本文利用邮政地址字典驱动模型,从信函提取手写收件人地址区域和邮编号码图像,实现手写收件人地址省、市、区(县)信息和邮政编码识别。论文完成工作如下:信封图像预处理与分割:预处理包括去噪、二值化、倾斜校正、地址块提取、归一化等。利用行投影法对信封图像进行分割,获得收件人地址块信息,然后利用局部列投影进行地址串切分。手写邮政地址识别:论文采取两级特征法进行识别,第一级采用改进粗网格特征、外内围特征进行单字粗分类,以减少二级识别单字候选集;第二级采用三方向笔画密度特征、局部傅里叶变换特征对粗分类单字候选集进行细分类。字典驱动模型:由于手写汉字存在大量连笔、粘连、噪音污染、断笔的情况,使得单字识别过程中,汉字图像分割后的字符不一定独立和完整,对单个汉字的识别率产生很大影响。采用字典驱动的方法对地址文本图像细化切割后获得的部件集,利用字典先验知识,寻找最优分割路径,可减少搜索空间,对于省市区(县)中某个字符书写错误或不规范问题,能够自动进行纠正识别。在小邮政地址和编码字典条件下,对提出的算法进行测试,实验结果验证了基于字典驱动模型的地址搜索路径优化以及二次外围特征粗分类和方向笔画密度细分类的两级识别算法的有效性。
其他文献
为了在世界范围内推行可信计算技术,TCG(可信赖计算组织)定义了具有安全存储和加密功能的TPM(Trusted Platform Module)可信平台模块。该平台是一种基于TCG工业标准规范的微
太阳能光伏发电在未来能源结构和社会发展中占有重要的地位。开展聚光光伏发电实验研究不仅对于降低太阳电池发电系统成本,推动光伏发电技术的大规模应用;而且对于节约常规能源保护生态环境都具有重要的意义。本文在实验研究多晶硅太阳电池输出特性的基础上,研究设计了非对称复合抛物面(CPC)低倍聚光器;通过优化设计研制出适用于CPC低倍聚光器的多晶硅光伏组件,并对组件的输出特性进行了实地测试和分析评估。 本