场景文字识别方法研究及其软件实现

来源 :电子科技大学 | 被引量 : 5次 | 上传用户:w818150
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在目前这个信息化的世界中,信息的传递显得尤为重要,其中文字信息在现实环境中随处可见,而识别其中的文本信息对获取周围环境的信息具有非常重要的作用,所以文字识别技术在近年来受到越来越多的重视。现有的较为通用的文字识别技术OCR的局限性在于:OCR只能处理背景单一的文字图片。在实际生活应用中,待识别的文字图片往往是直接来源于成像设备捕捉的自然场景图片,该类图片的特点是背景复杂且不可预测,如果直接将此种图片作为OCR的输入进行识别,效果往往是不尽人意的。自然地,自然场景文字识别作为计算机视觉技术中的一种较为年轻的学科在近年来发展得非常迅速。作为最常见的文字识别类型,英文识别的应用最为广泛。如何对输入图片进行预处理,并对处理后的图片来提取特征、训练分类器、抑制错误结果和对最终结果进行判别和修正,是英文文字识别中的一些值得深入研究的问题。基于对上述问题的考虑,及对结合近年的英文文字识别的方法的研究,本文对自然场景英文文字识别进行相关研究,主要内容有:1.提出了基于类间错分率的模糊类别划分方案,本文通过计算目前最为通用的是62类英文字符分类的两两样本间的错分概率,对类别进行了模糊处理,通过降低类别空间,本方法从根本上提高了初始分类精度。2.提出了基于图像分割的方法预处理方法,对输入待识别的自然场景图片使用图像分割方法进行预处理,结合预处理结果,提出分离置信度SC的计算公式,并结合字符的纵横比统计信息抑制大量滑动窗口,最终将分离置信度加入所有的识别结果候选序列的最终识别分数的计算中,得到一系列分数较高的识别结果。3.提出了基于大样本字典的定量修正识别单词的准则,对目前现有的根据字典信息对识别结果进行修正的方法进行了改进。确定了根据识别结果中不同字符数的不同修正方法,并通过大量实验证明了本文提出的识别方法具有较好的识别精度和运行速度。本文提出的自然场景英文字符识别方法准确度高,基于重新给定样本空间的方法,提高了分类器的分类精度,且基于纵横比的子窗口抑制方法更为合理地将子窗口数量降低了2个数量级,从而同时提高了分类精度和运行速度。
其他文献
盲源分离算法在信号探测的应用中具有非常重要的理论和实际研究价值。盲源分离是一个将一系列仅经过线性瞬时混合后的观测数据解混合恢复的过程。给定一组观测信号数据向量,
本文研究了SSK调制技术在快变信道下,尤其是信道状态信息不准确时,SSK调制的性能。在SSK调制中,信息比特被映射称为索引值,然后在单天线上发送,其他天线不被激活。SSK调制利
为了满足减少磁共振成像(Magnetic Resonance Imaging,MRI)扫描时间、加快成像速度,尽可能地用较少的测量数据获取高质量重建图像的实际需求,本文提出了应用分裂增广拉格朗日
随着科学技术的高速发展,智能机器人技术的广泛应用,移动机器人中的身份认证成为了关键技术之一。人脸识别技术具有友好性、非接触性、易于接受等特点,成为了身份认证的热门
现今社会随着无固定设施网络条件下人们对于网络通信的需求逐渐增加,对这种能够随时组网的自组织网络系统进行更加深入的开发。自组织网络系统和终端基于摒弃了固定设施的有
在现代通信以及雷达领域,数字接收机起到了至关重要的作用。其利用了软件无线电的思想,将模拟接收机中的各部分尽可能地使用数字来实现,可以很大程度上减小模拟电路的非线性
目前数字语音信号主要分为两种,即窄带语音信号和宽带语音信号。当前的电话网络中,传输的语音信号一般都是窄带的,其可懂性和自然度较差。随着科学技术的不断发展,为了在目前
利用平面阵列估计多信号的二维DOA(Direction-of-Arrival)参数在许多军事及国民经济领域具有重要作用,比如声呐,雷达和通信等。由于二维DOA维数的增加,DOA估计过程的计算量主
LDPC码和Turbo码是现代纠错编码的代表,具有接近Shannon极限的纠错性能。LDPC码是一种类由稀疏奇偶校验矩阵定义的线性分组码,校验矩阵的稀疏特性决定了LDPC码的纠错性能;压缩
随着数字音频技术的飞速进步,人们能够很方便地采集到数字音频信号,但同时也可利用许多音频处理软件轻易地对其进行后期编辑与修改。若将这种有意或无意篡改的数字音频应用到