论文部分内容阅读
近几年,由于多媒体技术和互联网的蓬勃发展,全世界数字图像容量迅猛增长。我们生活的每一天都能产生数千兆字节容量的图像,这些图像中的字符承载着非常有用的信息,例如交通道路指示牌、街道名称、商店名字、广告牌、海报、书籍封面等。假如能自动定位图像中的字符区域,那么对于图像高层语义的理解、索引和检索有重大意义。本文结合应用数学相关知识,建立数学模型,围绕图像中自然场景字符区域定位,做了如下工作:首先,利用Canny边缘提取算子与NiBlack算子相结合提取出原图像的边缘图,结合两种算子各自的优点,既可以抑制背景和噪声,又可以将邻近的字符区域分开,为后续的字符特征提取做好准备工作;其次,将边缘图进行填充,进行连通区域分析,利用字符特征,如字符宽高比满足一定比例、笔画宽度相似性等多个特征去除部分背景或者非字符区域,得到字符候选区域粗提取。再次,将粗提取的字符候选区域对比着原图像上色,根据字符区域颜色一致性,采用K均值聚类算法聚成三类。因为字符区域较非字符区域具有更多的角点,因此再结合Harris角点检测算法通过判断连通区域角点的数目来区分哪一类为字符区域,哪一类为非字符区域,从而将一部分非字符区域去除,得到字符候选区域精提取;最后,针对精提取的字符候选区域仍会有非字符存在的情况,本文提出基于支持向量机结合HOG特征和LBP特征,对字符候选区域进行识别分类。HOG特征通过计算统计图像局部区域的梯度方向直方图获得,LBP能够很好地描述图像纹理特征,采用主成分分析进行特征选择。用训练好的分类器进行识别分类,最终达到图像中自然场景字符区域准确定位的效果。本文提出的图像中自然场景字符区域定位算法可检测图像中存在多类不同字符的情况,也可检测字符区域像素值较背景低的情况。经实验表明,字符区域定位效果好,且不易受光照、字符字体、复杂背景等因素的影响,具有较好的鲁棒性。