论文部分内容阅读
当前的OCR (Optical Characters Recognition,光学字符识别)系统克服了向计算机手工输入信息费时费力和错误率高的缺点,实现了高速、自动地将文字、图像等信息输入计算机。自动输入的实现必须是在较高的图像质量基础上完成的,因此,在文档图像扫描阶段选择合理的参数是至关重要的。本文针对OCR图像采集阶段扫描仪参数的自动选择问题展开研究,分析了TWAIN协议和相关扫描参数,对预扫描之后形成的图像,引入灰度直方图方法,根据其直方图特点对参数进行适当的调整;并在采用投影法确定字符大小的基础上,找到适合扫描的分辨率,克服了人工设置参数不当造成的图像问题,在忠于原稿又有益于识别的基础上,得到质量较高的印刷文档扫描图像。针对不同类型印刷文档的对比实验表明,本文所设计的自动调整扫描参数的方法,能够保证扫描图像的效果。