论文部分内容阅读
自然场景下的文字识别由于文字所处背景复杂,很难准确定位到图像或视频中的字符,字符的定位技术成为解决自然场景下文字识别的重要环节。以自然场景图像中的文字定位与提取作为研究内容,它需要解决以下五个问题:一是图像的类型及来源;二是实验的平台;三是图像中文本区域的定位方法;四是针对文本区域如何提取单个字符;最后,对定位的结果如何进行评价。 针对自然场景图像中的文字定位所要解决的问题,提出了一个详细的解决方案。首先,由带有摄像功能的移动终端采集到自然场景中带有文字的彩色图像,图像格式为JPG格式;其次,以 Android平台作为实验平台,在该平台下进行实验,测试定位结果的准确率;第三,提出了基于分层块的文本区域定位方法。该方法先是将彩色图像做灰度化处理,其次进行基于分块及灰度梯度值的边缘提取,再次在边缘图像上作区块标记和连通域分析,得到候选文本区域,最后进行文本区域过滤和文本区域聚合;第四,对得到的文本区域,提出了基于局部重叠阈值分割的文本区域内单个字符提取方法。该方法先是将文本区域作基于局部重叠阈值分割的二值分割处理,得到二值图像,其次将文本区域的二值图像作水平及垂直方向上的投影,根据投影曲线切分出单个字符,最后对得到的字符进行过滤。第五,将自然场景图像中的文字定位方法在Android平台上实现,并对实验的结果进行统计,计算该文字定位算法的准确率。 实验中得到的文字定位的准确率为83%,表明该文字定位算法是有效的,能够将自然场景图像中的大部分文字提取出来。