论文部分内容阅读
近些年来,随着经济的发展和科学技术的突飞猛进,工业领域和日常生活对智能化的需求都日益加深。图像识别作为人工智能的一个重要领域也得到了越来越多的关注。本文对图像识别中的两种类型的问题进行了讨论:自然场景物体和文字识别。这两类对象的分析有很强的现实意义,如通过获取物体的类别信息,或者识别场景中出现的文字,可以极大的丰富信息来源,提高机器感知周围环境的能力,大大减少人工的参与。本文首先对物体和文字识别问题的背景以及研究现状做了相应的介绍。在此基础上,本文首先提出了一种基于自编码(auto encoder)的场景文字识别算法,该算法对自然场景下文字的特性,包括字体、颜色的差异,以及模糊、背景等干扰有良好的鲁棒性。该方法通过字典(filter bank)将输入图像的某些部分信号增强或者减弱,来得到具有较强分类能力的特征。在训练字典时,本文针对类与类的共同性、类别之间的差异性做了处理,提高分类能力。最后,本文使用池化(pooling)方法得到特征。接下来本文介绍了一种基于霍夫森林的室内物体检测方法。该方法主要使用了随机森林作为相应的分类器,在每个叶子节点上,除了包含类别信息,还对目标物体出现的位置进行投票,最后得到物体的位置。在基准数据集上的实验结果表明,本文所提出的两种方法,在识别场景中的文字和检测室内场景中的物体时,其准确率、召回率、速度等指标,都达到了较高的水准。