文档图像的文种识别系统

来源 :四川大学 | 被引量 : 0次 | 上传用户:seaw2008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在当今时代,网络和多媒体技术迅猛发展,在促进了信息交换的同时,也带来了对信息的巨大需求。光学字符识别OCR作为计算机信息录入的一个重要技术,也得到了飞速发展。文种识别作为OCR技术的前端和基础,同时也是自动化处理工作中的重要部分,近年来得到了广泛的关注与研究。 本文设计和实现了一个文档图像的文种识别系统。该系统运用于我们的实际工作中,取得了较好的效果。该系统由预处理、版面分析、文种识别三大部分组成。本文的主要研究工作有: (1)图像预处理。预处理是图像处理中一项很重要的工作,预处理的质量直接影响后续工作的效果和成败。本文着重介绍我们改进的Hough变换方法,用于文档图像的倾斜校正。这种算法,通过以下措施减小了计算量:采用合适的量化角度,减小量化步长;选择子区域取代完整的图像,减小待处理的数据量;选取特征点集而不是处理区域全部像素,进一步减小待处理的数据量。最后,为了提高图像质量,不是简单地旋转而是用像素面积插值法进行倾斜的校正。 (2)采用投影法进行简单版面的分割。改进了常用的递归算法,使用多叉树取代二叉树算法,大大减小了冗余运算,降低了算法的复杂度。为了避开投影法对嵌入式等复杂版面分析中的失效,充分利用投影法简单快捷的优点,我们将投影法应用于区域提取和文字行的切分上。 (3)金字塔模型的版面分割。本文提出了一种新的基于形状的版面分析方法——基于金字塔模型的版面分割,解决了复杂版面分析问题。该方法符合人类视觉由粗到精的特点,我们改进了基于连通区的
其他文献
伴随着世界各国车辆数量的急剧增加,交通状犹日益受到人们的重视。如何有效地进行交通管理,越来越成为世界各国政府和有关部门所关注的焦点,针对此问题;各种智能交通管理系统
密集波分复用(DWDM)技术是近年来出现的光通信新技术,已得到越来越广泛的应用。密集波分复用的波道数已由8波、16波,发展到32波、40波、160波。随着IP业务的与日俱增,电信业的增
城市供水工艺主要包括以下几个部分:原水提取、净化处理、净水输送。由于它们分布的地理范围较广,所以通信问题是其监控系统的主要问题。传统的方法是使用无线电台、电话线或