论文部分内容阅读
表格文档作为信息的载体,在人们的日常工作和生活中扮演着非常重要的角色。随着办公越来越自动化和信息处理越来越智能化,表格文档处理的方式由以前人工统计和搜集纸质表格文档中信息的方式,转变成了先通过扫描设备将纸质表格文档转换为表格图像,再由计算机系统自动识别处理表格图像的方式,极大提高了表格文档的处理效率。但是,由于表格文档的种类多种多样,现有的表格识别算法通用性不高,无法对多种表格进行识别,因而探索一种新的通用表格识别算法对于表格识别系统的发展和表格识别算法的研究有着非常重要的推动作用。 本文在研究总结现有的表格识别算法的基础上,提出了一种基于投影法和构造表格特征点矩阵的通用表格识别算法,并将其应用到了社区选举系统中。算法主要过程包括图像预处理,图像倾斜矫正,图像边缘检测,数学形态学处理,投影法确定表格横纵直线坐标,构造表格特征点矩阵和表格重绘。 图像预处理是表格识别算法的第一步,预处理的效果关系到了表格识别的准确率。随着科技的发展,扫描设备扫描出来的图像质量越来越好,因此本文采用了大津法对图像进行二值化处理,采用Radon变换的方法对图像进行倾斜矫正,采用Canny算子对图像进行边缘检测,取得了较好的效果。为了减少表格图像中的文字信息对确定表格框线坐标的影响,本文采用腐蚀和重构运算去除图像中的文字信息,能够得到仅包含表格框线的表格图像。 在表格图像的投影中,表格框线的投影特征比较明显,因此本文利用了表格图像的投影来确定表格横纵直线坐标,然后根据直线坐标确定框线交点坐标,在交点的四个方向综合判断交点类型,然后构造特征点矩阵。这样避免了对整幅图像的检索,最后通过遍历表格特征点矩阵完成表格的重绘。与其他表格识别算法相比,本文提出的算法能够识别的表格种类更多,重绘的表格也比其他算法更加准确,构造的表格特征点矩阵也更加清晰准确地描述表格的框架结构。 论文在对表格识别算法研究的同时,也研究了表格识别算法在社区选举系统中的应用,用于对表格识别算法进行验证。基于本文表格识别算法的社区选举系统,选票设计更加简单,需在系统中预定义的信息块位置的参数也更少,用户操作起来也更加方便,提升了系统的用户体验。