论文部分内容阅读
唇读、唇动技术作为一种新兴的智能人机交互技术,近年来正逐渐走向实用化。对唇动技术的研究,主要集中在唇动身份识别和说话人内容识别(即,唇读)两大应用上。本文主要致力于改进后者的识别性能。用简单的唇部区域视频序列反映复杂的发音过程、语言过程,必然要求研究人员能够提出有效的、全面的反映唇区视频序列信息的特征提取方法。然而,视频序列中包含有许多身份相关信息。这些信息的表达不仅对唇读问题没有改善,而且很容易就会影响到唇读问题解决的鲁棒性和准确性,而且即使是视频序列中包含的唇读信息也存在易混淆、不统一、遍布于图像结构的各个层次中的问题。如何将唇区视频序列所包含的语言信息全面、准确的提取出来,就是本文的研究出发点。针对唇读信息的复杂性,本文提出使用不同种类、不同性质的多源特征来解决唇读信息描述的问题。本文引入了LBP、HOG、Gabor等静态特征对于图像不同层次上的静态信息加以描述。相比于其他模式识别问题,唇读包含有更丰富的动态信息。本文提出了富信息帧的概念,通过富信息帧度量视频序列片段的动态信息积累,并在此基础上引入光流的方法,提取视频中的动态信息。然而,多源特征的结构复杂,量纲不同,表示信息的方式与结构各不相同。为了使多源特征能协同工作,必须进行特征对齐。本文提出了多源特征对齐的两条准则,并在此基础上以二源特征为例介绍了多源特征对齐的方法,进而提出了多源特征对齐与融合的框架,以及两种使用LBP、HOG、Gabor和光流等特征的特征融合策略。最后,将本文提出的多源特征提取方法与目前主流的特征提取方法进行了实验对比,并对实验结果进行了分析。本文提出的多源特征对齐、融合的方法是一个可扩展的框架,对使用的多源特征特征种类和特征数量没有限制,是为多源特征协同工作提出了一种新的思路。而且,只要对特征的种类和特征的数量加以选择,就可以很容易地推广到模式识别领域的不同应用中。