论文部分内容阅读
随着信息科技、网络技术和通信技术的迅速发展,电子文档是如今信息传播和分享的主要载体。信息的不断膨胀对电子文档的存储产生巨大压力,因此需要对这些信息进行分层压缩。分层是把文本图像分离成前景层和背景层,然后采用不同的压缩编码技术,而文本图像的版面分析是分层过程中非常重要的一个环节,版面分析包括版面分割和区域识别。在文本图像摄取和采集的过程中,容易产生图像倾斜和多余的边缘信息,需要先进行倾斜校正和边缘剪裁,然后再进行版面分析。对于倾斜的文本图像,需要先进行倾斜校正,通常采用Hough变换的检测方法,但是该方法的计算量大。本文提出一种改进的Hough检测方法。首先对图像进行缩放重采样,减少待计算像素点个数,同时对Hough变换中正余弦值进行预存储,减少计算时间。然后使用二次Hough检测,缩小检测范围并减小角度增量,不仅可以减少计算量,还能保证检测精度。实验结果表明,该方法相对于标准的Hough检测方法,平均计算效率可以提高20倍左右。对纸质文档进行拍照时,容易拍到多余的边缘信息,需要去除这些信息。首先,本文给出一种基于投影的边缘剪裁方法。该方法对多个方向进行分段投影,统计边缘信息并确定边界位置,但是对于边缘信息较复杂的情况适应性弱。因此,提出一种基于轮廓的边缘剪裁方法。首先对不同区域进行轮廓提取并计算出外接矩形,去除部分边缘信息,然后设置一个判定策略确定边界位置。实验结果表明,该方法对于边缘信息混乱、无规则的情况适应性较强。版面分割是版面分析中非常重要的一步,首先将文本图像划分为多个子区域,然后进行区域识别。考虑自顶向下方法的效率优势,本文提出一种分列投影的版面分割算法。首先将文本图像划分为N列,然后对每一列进行水平和垂直方向投影,通过多次投影将文本信息划分为多个子区域。实验结果表明,该方法继承了投影法本身计算速度快的特点,同时还可以避免图像弧度对版面分割的影响,并且对排版较复杂的文本图像也有很好的适应性。