论文部分内容阅读
随着生产办公自动化的发展,机打发票代替了手写发票。目前主要是通过到税务局网站手工查询的方式进行发票真伪鉴别,效率低,易出错。本文研究一种基于光学字符识别(OCR)的发票号码识别方法,以实现发票真伪自动鉴别。针对发票图像受拍摄和印刷问题影响,首先对发票采用改进后的底帽变换和类间最大方差二值化方法进行处理,得到二值化图像。通过Hough变换检测发票中的线段和矩形的方法,计算倾斜角度均值并进行图像矫正。由于发票中存在大量和发票序列号无关的字符,本文根据序列号的特点,提出了基于轮廓特征的字符区域分割方法,并给出根据字符外接矩形宽度和高度进行自适应延伸的相关计算表达式,相比较于其它形态学和机器学习等方法,其具有准确简易通用性高的优点。本文研究利用聚类分析的方法对于初步选择的独立字符外轮廓进行集合与分割,并给出考虑字符序列排列方向的近邻距离计算表达式。文中同时分析对于单像素宽度轮廓的链码表示方法。对于字符识别部分,根据连通域位置关系等信息修复错误的粘连和断裂并分割独立字符。之后提取字符的像素分布特征和交点,笔划方向等结构特征,利用支持向量机方法(SVM)实现了字符识别分类器的训练与识别。本文的多分类器采用一对一投票方式,并利用交叉验证方法计算参数组合的准确度以优化相关参数。相关实验结果表明,文中的字符区域分割方法和基于SVM分类器的字符识别程序能够较为准确的识别不同种类发票的序列号,其通用性好于现有的格式匹配方法,并能够应用于其它同类平面图像的字符识别,具备使用价值。