通用表格识别算法的应用研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:dongrun4696
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
表格文档作为信息的载体,在人们的日常工作和生活中扮演着非常重要的角色。随着办公越来越自动化和信息处理越来越智能化,表格文档处理的方式由以前人工统计和搜集纸质表格文档中信息的方式,转变成了先通过扫描设备将纸质表格文档转换为表格图像,再由计算机系统自动识别处理表格图像的方式,极大提高了表格文档的处理效率。但是,由于表格文档的种类多种多样,现有的表格识别算法通用性不高,无法对多种表格进行识别,因而探索一种新的通用表格识别算法对于表格识别系统的发展和表格识别算法的研究有着非常重要的推动作用。  本文在研究总结现有的表格识别算法的基础上,提出了一种基于投影法和构造表格特征点矩阵的通用表格识别算法,并将其应用到了社区选举系统中。算法主要过程包括图像预处理,图像倾斜矫正,图像边缘检测,数学形态学处理,投影法确定表格横纵直线坐标,构造表格特征点矩阵和表格重绘。  图像预处理是表格识别算法的第一步,预处理的效果关系到了表格识别的准确率。随着科技的发展,扫描设备扫描出来的图像质量越来越好,因此本文采用了大津法对图像进行二值化处理,采用Radon变换的方法对图像进行倾斜矫正,采用Canny算子对图像进行边缘检测,取得了较好的效果。为了减少表格图像中的文字信息对确定表格框线坐标的影响,本文采用腐蚀和重构运算去除图像中的文字信息,能够得到仅包含表格框线的表格图像。  在表格图像的投影中,表格框线的投影特征比较明显,因此本文利用了表格图像的投影来确定表格横纵直线坐标,然后根据直线坐标确定框线交点坐标,在交点的四个方向综合判断交点类型,然后构造特征点矩阵。这样避免了对整幅图像的检索,最后通过遍历表格特征点矩阵完成表格的重绘。与其他表格识别算法相比,本文提出的算法能够识别的表格种类更多,重绘的表格也比其他算法更加准确,构造的表格特征点矩阵也更加清晰准确地描述表格的框架结构。  论文在对表格识别算法研究的同时,也研究了表格识别算法在社区选举系统中的应用,用于对表格识别算法进行验证。基于本文表格识别算法的社区选举系统,选票设计更加简单,需在系统中预定义的信息块位置的参数也更少,用户操作起来也更加方便,提升了系统的用户体验。
其他文献
显示器和打印机采用不同的彩色空间,并且这两种彩色空间的转换只能进行近似转换.该文采用三维查找表(3D_LUT)和三棱柱线性插值技术进行分色.宽幅面喷墨打印机一般都需要把原
伴随着信息时代的飞速发展,信息爆炸式的增长引发了“信息过载”问题。医学领域中,广泛应用的经食管超声心动图(TransEsophageal Echocardiography,TEE)在临床诊断与治疗中具有
随着制造业加工精度的不断提高,越来越多的产品向微型化和精密化发展。凹版作为凹版印刷的主要载体,工艺流程复杂,而现阶段主要通过人工控制质量,耗时、成品合格率低,且任何环节出
本课题来源于电子科技大学计算机学院8020教研室承担的信息产业部电子生产发展基金项目。目标是提供一个适合中小型企业的性价比高、功能齐全的高速电子邮件系统。 在Inter
本文结合作者在电能量计量系统开发过程中的实际经验,介绍了UML在大型系统设计与实现过程中的应用。 UML是面向对象的分析与设计(OOA&D)方法的发展在80年代末至90年代中期出现高潮时的产物。UML的目标是以面向对象的方法来描述任何类型的系统,具有很宽的应用领域。在比较传统开发方式和面向对象开发方法的基础上,作者着重研究了在电能量计量系统开发过程中利用UML对系统进行需求确认、分析、建模、
随着物联网技术的不断发展,嵌入式实时系统被广泛应用于各个领域。嵌入式实时系统需要提高实时性、内存碎片率等方面的性能,从而满足越来越多样化的应用领域的需求。嵌入式实时
该文主要研究如何将质量管理理论应用到实施网管接口一致性测试的测试组织中,通过引入质量管理实现满足特定质量要求的网管接口一致性测试.文章首先介绍了网管接口一致性测试
建模技术在电信管理网技术应用于网管软件的开发过程中具有举足轻重的地位,通过对被管理网络逻辑实体、物理实体以及功能实体良好地加以抽象,才能够确保网管系统高效、准确地
语音模块和表决模块是会议系统非常重要的组成部分,目前大多数会议系统中语音模块使用模拟信号而表决数据使用数字信号,对这两种数据的传输现有系统的解决方案有两种:一种是分
嵌入式操作系统在嵌入式系统设计中处于核心地位,而微处理器是嵌入式系统硬件平台的核心.该课题以MCF5272为嵌入式实时系统硬件平台,以嵌入式实时操作系统RTLinux为内核,进行