论文部分内容阅读
在当今社会中国际化越来越明显,语言的交流成为适应这一变化的重要途径。怎么能在有限的条件下来提高非母语学习者学习语言的效率和效果成为一个亟待解决的问题,通过计算机来辅助语言的学习。在语言学习过程中,发音不准成为学习非母语的一道天然屏障。目前有研究利用计算机提供虚拟浸入式口语教学环境,提高非母语学习的效率。本文面向该目标,完成计算机虚拟教师对学习者发音的自动评价。 人类的语言理解过程是一个多通道的感知过程。除声音信息通道外,唇动视觉信息可以作为一种重要的语音理解源。传统语音识别研究只利用声学语音信息,在有噪声环境下,识别效果不理想。而音视频双模态语音识别利用说话人的唇动信息和声学语音信息共同完成语音识别,为提高语音识别系统的鲁棒性和抗噪性能提供了一条新途径。这种信息融合系统将充分利用多个通道资源,通过对各种观测信息的合理支配与使用,在空间和时间上把互补与冗余信息依据某种优化准则结合起来,产生对观测环境的一致性解释或描述,同时产生新的融合结果。通过对信息的优化组合导出更多的有效信息,最终目的是利用两个通道信息共同或联合操作的优势来提高这个系统的有效性。本文借鉴在语音和信息融合方面的研究,对双模态评分算法中的一些关键技术进行了深入的研究。本文着重研究视觉特征提取,音频特征提取,音视频融合等实际应用问题。本文主要工作如下: 1)根据评分算法的实际需求,本文定义了所需的视觉特征参数,并用两种方法进行实现。第一个是基于LAB空间的嘴唇区域定位和提取算法。该算法利用Adaboost算法实现人脸的快速检测,并利用人脸形状特性快速分割出嘴区域。然后把嘴区域图像变换到LAB空间,接着对所得图像的L和A分量进行直方图统计。根据嘴区域图像的特点以及L和A坐标轴的意义等先验知识,可以快速的分割出嘴唇和嘴唇内部区域,并将其轮廓描述出来,然后提取出嘴唇区域和嘴内区域的宽和高等几何特征。并将得到的结果和AMM进行比较。实验表明,整个算法简单快速,能够适应不同人所带来的肤色和唇色的影响,并能将其利用到只有简单背景的视频中,用于跟踪语音的发音过程,而且提取的几何特征也有一定的准确性;第二个是主动表观模型法定位嘴唇的特征点,并用AAMLab完成AAM的建模和匹配工作,提取视觉特征。 2)在语音评分问题上,本文实现了两种语音评分算法框架。第一个是基于后期融合的发音评价算法框架,该框架首先分别提取标准发音和待评价发音的语音特征和视觉特征,然后求其对应特征的欧式距离,最后利用后期融合的策略合并两种模式下的相似性判断结果,并转换为发音评分。第二种是基于耦合隐马尔科夫的融合策略,利用一个分类器同时完成语音唇读异步信息的融合与分类。对待评价声视频信息求解在该观察序列条件下对应耦合隐马尔科夫模型的最大输出概率,派生为评价分数。 3)实现了环境自适应加权双模态发音评价算法,该算法的基本结构和基于后期融合的发音评价算法框架相似,并用信噪比作为其语音通道和视觉通道在最终评分结果中所占的权值。采用该算法比仅用音频通道的信息有更好的评价能力,而且对噪音有一定的鲁棒性。 4)实现了基于CHMM(Coupled hidden Markova model)的双模态融合发音评价算法,CHMM能解决声视频双模态信息非同步,非同构的融合问题,实现音素级的同步决策;即该模型同时考虑到了音频通道和视觉通道在发音过程中的相关性,采用基于中间层及转移状态层的融合方法。但是直接实现CHMM比较困难,而且计算量也比较大,本文介绍用传统HMM等价实现CHMM方法。