论文部分内容阅读
信息资源数字化工作中的OCR识别,是整项工作的一个有机组成部分,其生命周期可以分为数字扫描对象的获取、数字图像的生产、数字图像的处理和OCR文本识别等四个阶段。OCR识别在信息资源数字化工作中应用时,其准确度一直是人们关注的焦点,因为OCR精确识别是保证数字化产品质量进而为整项工作提供用户保障的一个重要环节。
本文着眼于将OCR识别工作整体作为信息资源数字化工作流程中的一个有机组成部分,同时又将该项工作按照其自身的生命周期的四个阶段依次展开。文章首先基于OCR识别周期,分别详细探讨了每个阶段中可能会对识别准确度造成影响的各种因素。随后,文章在明确文本型数字图像OCR识别准确度的各种相关影响因素的基础上,提出了提高识别准确度的相应策略。鉴于信息资源数字化中OCR识别工作的特点,将重点放在了对数字图像生产、数字图像处理和OCR文本识别这三个阶段中文本型数字图像OCR识别准确度影响因素以及相应提高策略的论述上。
本研究分为四个部分:第一章为引言部分,介绍文章的选题缘起和意义,概述已有的相关研究内容,对所采用的主要研究方法和创新点进行了阐述。第二章为文本型数字图像OCR识别准确度影响因素分析。基于OCR识别生命周期的四个阶段对文本型数字图像OCR识别准确度的一系列影响因素进行全面分析。第三章为文本型数字图像OCR识别准确度提高策略探讨。在第二章的基础上,系统地提出了有针对性的文本型数字图像OCR识别准确度提高策略。第四章为总结,对本文的研究内容进行总结,指出尚存在的不足之处,明确今后的努力方向。