基于双模式融合的学生发音评价算法研究

来源 :北京工业大学 | 被引量 : 0次 | 上传用户：hlayumi

【摘要】

：

在当今社会中国际化越来越明显，语言的交流成为适应这一变化的重要途径。怎么能在有限的条件下来提高非母语学习者学习语言的效率和效果成为一个亟待解决的问题，通过计算机来辅

【作者】

：

张科伟

【机构】

：

北京工业大学

【出处】

：

北京工业大学

【发表日期】

：

2012年期

【关键词】

：

非母语学习发音评价双模态评分算法特征提取耦合隐马尔科夫

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

在当今社会中国际化越来越明显，语言的交流成为适应这一变化的重要途径。怎么能在有限的条件下来提高非母语学习者学习语言的效率和效果成为一个亟待解决的问题，通过计算机来辅助语言的学习。在语言学习过程中，发音不准成为学习非母语的一道天然屏障。目前有研究利用计算机提供虚拟浸入式口语教学环境，提高非母语学习的效率。本文面向该目标，完成计算机虚拟教师对学习者发音的自动评价。　　人类的语言理解过程是一个多通道的感知过程。除声音信息通道外，唇动视觉信息可以作为一种重要的语音理解源。传统语音识别研究只利用声学语音信息，在有噪声环境下，识别效果不理想。而音视频双模态语音识别利用说话人的唇动信息和声学语音信息共同完成语音识别，为提高语音识别系统的鲁棒性和抗噪性能提供了一条新途径。这种信息融合系统将充分利用多个通道资源，通过对各种观测信息的合理支配与使用，在空间和时间上把互补与冗余信息依据某种优化准则结合起来，产生对观测环境的一致性解释或描述，同时产生新的融合结果。通过对信息的优化组合导出更多的有效信息，最终目的是利用两个通道信息共同或联合操作的优势来提高这个系统的有效性。本文借鉴在语音和信息融合方面的研究，对双模态评分算法中的一些关键技术进行了深入的研究。本文着重研究视觉特征提取，音频特征提取，音视频融合等实际应用问题。本文主要工作如下：　　1)根据评分算法的实际需求，本文定义了所需的视觉特征参数，并用两种方法进行实现。第一个是基于LAB空间的嘴唇区域定位和提取算法。该算法利用Adaboost算法实现人脸的快速检测，并利用人脸形状特性快速分割出嘴区域。然后把嘴区域图像变换到LAB空间，接着对所得图像的L和A分量进行直方图统计。根据嘴区域图像的特点以及L和A坐标轴的意义等先验知识，可以快速的分割出嘴唇和嘴唇内部区域，并将其轮廓描述出来，然后提取出嘴唇区域和嘴内区域的宽和高等几何特征。并将得到的结果和AMM进行比较。实验表明，整个算法简单快速，能够适应不同人所带来的肤色和唇色的影响，并能将其利用到只有简单背景的视频中，用于跟踪语音的发音过程，而且提取的几何特征也有一定的准确性；第二个是主动表观模型法定位嘴唇的特征点，并用AAMLab完成AAM的建模和匹配工作，提取视觉特征。　　2)在语音评分问题上，本文实现了两种语音评分算法框架。第一个是基于后期融合的发音评价算法框架，该框架首先分别提取标准发音和待评价发音的语音特征和视觉特征，然后求其对应特征的欧式距离，最后利用后期融合的策略合并两种模式下的相似性判断结果，并转换为发音评分。第二种是基于耦合隐马尔科夫的融合策略，利用一个分类器同时完成语音唇读异步信息的融合与分类。对待评价声视频信息求解在该观察序列条件下对应耦合隐马尔科夫模型的最大输出概率，派生为评价分数。　　3)实现了环境自适应加权双模态发音评价算法，该算法的基本结构和基于后期融合的发音评价算法框架相似，并用信噪比作为其语音通道和视觉通道在最终评分结果中所占的权值。采用该算法比仅用音频通道的信息有更好的评价能力，而且对噪音有一定的鲁棒性。　　4)实现了基于CHMM(Coupled hidden Markova model)的双模态融合发音评价算法，CHMM能解决声视频双模态信息非同步，非同构的融合问题，实现音素级的同步决策；即该模型同时考虑到了音频通道和视觉通道在发音过程中的相关性，采用基于中间层及转移状态层的融合方法。但是直接实现CHMM比较困难，而且计算量也比较大，本文介绍用传统HMM等价实现CHMM方法。

其他文献

面向事件的文本检索技术研究

学位

测试用例与被测代码一致性分析工具的设计与实现

在软件迭代更新的开发过程中，会出现测试用例与被测代码不一致的情况，即当前的程序代码，并不能够全部通过旧版本的测试用例。这可能由当前代码的错误引发，也可能是测试用例造成。

学位

单元测试错误分类机器学习软件迭代更新

面向64位UniCore体系结构的C语言函数库的移植与优化

作为目标文件的集合，C语言函数库为系统运行和软件开发提供了必要的支持。64位技术的普及为计算机的发展注入了强劲动力。UniCore-3处理器是我国自主研发的64位处理器。为支持

学位

C语言函数库64位UniCore体系结构SPEC程序软件移植

无指导与半指导的核心论元语义角色标注研究

语义角色标注的目的是分析句子中特定动词的论元结构,识别出与该动词具有搭配关系的论元并分析这些论元的语义角色。近年来,有指导的语义角色标注方法已经得到了比较全面的研

学位

语义角色标注无指导法半指导法聚类核心论元

搜索引擎查询分类方法的研究与实现

查询意图被定义为查询背后的信息需求，正确分类用户的查询意图，能够帮助商业化搜索引擎优化检索结果，提供更加准确的检索服务。由于用户的查询　　关键词一般较短(平均长度2-3)，

学位

查询分类商业意图标签传播算法检索服务

一种面向UniCore体系结构的集成开发环境的设计与实现

软件开发是一个迭代的过程，通常需要反复经历代码的编辑、编译、链接、运行和调试。这期间将使用到各种各样的开发工具，包括编辑器、编译器、链接器、汇编器、函数库、调试器等

学位

集成开发环境UniCore体系结构微处理器嵌入式系统

面向固态盘的存储系统关键技术研究

基于NAND闪存的固态盘(SSD)作为磁盘的缓存设备已经广泛地应用在数据中心存储系统中。已有的固态盘缓存系统设计没有充分考虑闪存介质的特性，如擦后写、擦写粒度不对称、擦写

学位

固态盘缓存系统软件设计硬件开发流水线式合并算法

海量全文数据检索系统中增量式结果缓存的设计与实现

随着人类文明的不断发展,科技的不断进步,尤其是计算机学科的发展和Intemet的发展,人们需要面对的数据量越来越大。如何从海量数据中获得自己想要的知识,一直是一个备受关注

学位

文档资源数据挖掘缓存替换程序语言

基于多目标决策的产品搜索系统的设计与实现

随着互联网的发展,电子商务逐渐走进越来越多人的日常生活。如何从为数众多的产品中,选择最符合自身需求的产品,是用户购买决策的重要环节之一。互联网上产品的图片、参数、

学位

多目标决策产品搜索离散选择模型特征选取用户生成内容电子商务

传输层性能诊断与优化

作为当前互联网最主要的传输层协议之一，TCP为大量的互联网应用提供数据包可靠传输服务。TCP性能直接影响互联网业务的服务质量，TCP数据传输性能瓶颈分析与优化一直来都是网络

学位

传输控制协议诊断技术性能优化设计理念

基于双模式融合的学生发音评价算法研究

其他学术论文