论文部分内容阅读
对于未知人员手写文字进行计算机识别与分析,基于其内容与书写风格进行分类,进而鉴定书写人类别是一项困难的任务。本文从图像风格信息和文本语义信息两个角度进行离线手写汉字鉴定算法研究。图像风格信息通过笔迹鉴定算法提取,文本语义信息通过字符识别和文本分类的方法提取。首先,鉴于深度学习中卷积神经网络模型在图像识别与分类中的出色性能,本文的笔迹鉴定和字符识别算法采用卷积神经网络模型进行研究;而文本分类采用传统的向量空间模型和主题模型进行研究。接着,构建手写汉字鉴定算法文本图像数据库,验证鉴定算法有效性。最后,提出采用乘法规则,对图像风格特征和文本语义特征进行信息融合,提升算法鲁棒性。本文的主要内容有:1.针对卷积神经网络中不同大小的卷积核提取图像信息层次不同的特点,提出采用多级卷积特征提取结构代替卷积神经网络中的第一个卷积和下采样层。增强网络的特征提取能力,并分别在离线中文笔迹鉴定和字符识别卷积神经网络模型上进行改进验证,提升模型鉴定和识别正确率。2.将改进后的字符识别HCCR-GoogLeNet模型,应用于文本无关离线中文笔迹鉴定领域,获得端到端方法最佳性能。3.对比向量空间模型和主题模型在文本分类上的性能,提出将LatentDirichlet Allocation模型应用于匿名信分类场景。4.构建离线手写汉字鉴定算法文本图像数据库,验证基于风格和基于内容的鉴定算法有效性,并采用乘法规则对二者结果进行融合,提升鉴定算法鲁棒性。通过本文的工作,可以为匿名信文分类问题提供有效的处理算法,可以极大减少人工分类的工作量。同时,基于内容和风格的离线手写汉字鉴定算法中的相关改进模型及其融合策略,可以为其他类似问题,诸如画作风格学习、古文献鉴定等提供新思路。