论文部分内容阅读
随着多模态融合识别技术的飞速发展,唇读技术作为模式识别领域中的热点问题得以关注。唇读技术与指纹识别、虹膜识别、视网膜识别等相比,具有更加直接、便捷、适时的特点。唇读技术是新的人机交互模式的发展方向,是具有挑战性的研究课题。
本文在充分地了解唇读技术发展现状的基础上,构造了一个完整的唇读识别框架。具体内容是:将获取的视频文件转换成帧图像序列;对每幅静态帧图像进行预处理操作,即进行人脸检测和定位,实现唇部与人脸的分离;对唇形图像进行特征提取生成唇形识别特征向量;然后,使用模板匹配分类器和k近邻分类器实现唇形识别;最后,根据唇形识别结果,获得连续唇形所表述的语音内容,从而实现唇读。本文着眼于解决唇读识别过程中遇到的若干关键问题,从视频图像获取到实现唇读的整个过程进行了研究。在特征提取阶段,使用弹性模板参数为特征,曲线拟合算法为手段,生成唇形模式特征矢量。在唇形分类阶段,使用聚类可视化趋势方法确定聚类数目,解决了传统聚类算法缺少启发式知识的问题;同时,首次提出用卷积神经网络完成静态唇形图像的识别,降低了唇形特征提取过程带来的信息损失和计算代价;最后借鉴文本处理研究中广泛使用的“词袋”方法,将词频直方图作为唇读特征,实现了元音字母的唇读特征描述和识别。相关实验结果表明,本文提出的唇读识别框架和实现获得了很好的识别效果。