基于OCR的文档图片检测与信息提取系统的研究

被引量 : 0次 | 上传用户:xstyx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
科技的发展使信息处理方式突飞猛进,“信息资料电子化”的潮流吸引着各行各业的加入。基于Optical Character Recognition(OCR)的文档图片识别因速度块、识别从而准确越来越备受各大企业、党政机关的青睐。与传统的手工录入模式相比较,OCR的智能信息录入具备强大的优势,速度方面OCR识别也远快于手工录入模式,不仅使大批人力资源得到节省,资源配置得到优化,还使人员从繁琐的机械式工作中解脱出来,而去专注愈加有需要的工作上。OCR技术由于在数据收集计划方面可以为用户提供低成本、高效率,所以可以有力的支持业务快速发展。因此,大量的图片自动识别系统及APP软件应运而生。例如身份证的识别、票据的自动识别、车牌的自动识别。在此类产品中,都是固定了某种识别对象用特定的识别程序去识别。显然,当用户识别多个文档图像对象时,这种单处理对象模式将显得很棘手,因此,有必要开发一种能针对一般的文档图片,由程序自动判别文档类型,以及对信息进行提取的系统。基于上述的需求,本文提出一种基于OCR的多种文档图片识别系统。其中包括论文首页的图片、公文图片、名片图片等文档图片。该系统可以自动对输入的图片进行判别识别,并提取图片信息。本文主要从图片预处理、文档图片检测、版式分析及信息提取三个模块来描述提出的系统。图片预处理中的椒盐去噪是本系统的重要创新点之一,通过比较近几年各大期刊发表的相关论文,本文提出的椒盐去噪无论在高噪声还是低噪声,都有较好的效果。其次在图片的倾斜矫正方面,本文基于投影的改进算法在确保精度的条件下,加快了寻找倾斜角度的速度。在文档检测方面,利用Adaboost算法来组合弱分类器进而对图片分类,检测出文档图片。版式分析技术是基于改进的聚类算法来分析。图片的内容提取主要利用先验的规则库,以及通过贝叶斯概率来获得。
其他文献
在生态环境不断恶化的背景下,建筑领域提出绿色建筑理念,绿色建筑要求在建筑设计中,充分考虑建筑的使用与能耗问题。将计算机辅助设计方式应用在绿色建筑工程中,不仅可以减轻
随着对身份的认识从本质主义到建构主义的演变,身份研究成为语用学领域的一个热点话题。秉承社会建构主义观,语用身份强调即时语境中身份的交际属性。本文主要研究商务语境中
针对目前国内电厂数字化移交主要以数字档案式的移交已不能满足新需求的现状,提出了AVEVA NET平台在发电设计中的应用。AVEVA NET平台的主要功能是通过为最终用户提供一种直
为探究不同深埋秸秆量和灌水下限对温室番茄综合生产效果的影响,对温室番茄进行了小区试验。选取反映温室番茄综合生产效果的5个相关指标,利用TOPSIS法、夹角度量法、对称交
北斗卫星导航系统包含3种不同类型的空间星座,相对应卫星的高度角存在一定的差异,对北斗卫星单点定位的影响也不同。针对这一问题,研究了等权模型、基于卫星高度角和信噪比的
热轧哈芬槽钢是一种复杂断面型材,凭借其强度高、使用安全、安装简单、无需焊接等诸多优点应用于隧道建设领域以及各种需要架设管线的混凝土建筑。本课题所研究的新型槽式预
目的探讨和研究膨体联合自体肋软骨治疗短鼻塌鼻鼻基底凹陷症的临床应用研究。方法选取近年来在本院接受治疗的20例短鼻塌鼻鼻基底凹陷症患者作为研究对象取患者的第6/7根肋
为探讨舍饲半舍饲条件下甘肃高山细毛羊泌乳规律及哺乳羔羊生长规律,试验以25只二胎次甘肃高山细毛羊泌乳母羊和29只哺乳期羔羊为研究对象,测定母羊2~75 d的泌乳量以及哺乳期
中国秘书职业商业化的主要形式是秘书事务所,秘书事务所是以盈利为目的,以秘书服务为主营业务的经济实体,包含秘书事务所、秘书公司以及其他形式的秘书服务提供商。自1989年3
射频识别(Radio Frequency Identification,RFID)技术是于20世纪90年代兴起的一项自动辨别技术[1],当前被广泛应用于交通运输控制管理、工业、商业等传统领域以及还有军事领域