论文部分内容阅读
近五年,我国邮政信函、快递业务量保持20%的年均增长率,传统依靠手工进行邮政信函分拣模式难以胜任业务量的高速激增需求。目前一些自动邮政分拣系统主要通过建立信件上的条形码、标识码与邮编号码或地址信息的对应关系来实现信函的自动分拣,其邮编或地址通常是通过终端人工输入,在大量信函集中处理时,费时、费力、效率极低。利用图像识别方法,依靠机器自动识别信函上的邮编及地址是一种非常有效、快速的分拣手段。利用信封上的邮编识别来实现自动分拣,会由于邮编空缺、书写不规范或错误,导致依照邮编识别会出现地址投递区域错误,造成信件延误或者丢失情况。为改善邮政地址和邮政编码单独识别率受限状况,本文利用邮政地址字典驱动模型,从信函提取手写收件人地址区域和邮编号码图像,实现手写收件人地址省、市、区(县)信息和邮政编码识别。论文完成工作如下:信封图像预处理与分割:预处理包括去噪、二值化、倾斜校正、地址块提取、归一化等。利用行投影法对信封图像进行分割,获得收件人地址块信息,然后利用局部列投影进行地址串切分。手写邮政地址识别:论文采取两级特征法进行识别,第一级采用改进粗网格特征、外内围特征进行单字粗分类,以减少二级识别单字候选集;第二级采用三方向笔画密度特征、局部傅里叶变换特征对粗分类单字候选集进行细分类。字典驱动模型:由于手写汉字存在大量连笔、粘连、噪音污染、断笔的情况,使得单字识别过程中,汉字图像分割后的字符不一定独立和完整,对单个汉字的识别率产生很大影响。采用字典驱动的方法对地址文本图像细化切割后获得的部件集,利用字典先验知识,寻找最优分割路径,可减少搜索空间,对于省市区(县)中某个字符书写错误或不规范问题,能够自动进行纠正识别。在小邮政地址和编码字典条件下,对提出的算法进行测试,实验结果验证了基于字典驱动模型的地址搜索路径优化以及二次外围特征粗分类和方向笔画密度细分类的两级识别算法的有效性。