英语作为第二语言的多媒体语音数据库设计制作及初步测试

来源 :贵州大学 | 被引量 : 2次 | 上传用户:shanlin_shanlin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音识别是一门交叉学科,语音识别正逐步成为信息技术中人机接口的关键技术,近年来,计算机语音识别的应用有了长足的进展,基于英语的特殊地位,世界上对于英语作为第一语言的语音数据库的设计和制作已经很多。但由于英语的日益普及,以英语作为第二语言的人们越来越多,因此建立一个以英语作为第二语言的语音数据库是很有必要的。不同的国家,有不同的语言,其发音都有各自的特点,从而影响了作为第二语言的英语发音也出现了不同的特色。我们这里主要考虑在中国地区,设计与制作以英语作为第二语言的语音数据库,并对该数据库在构建的HTK语音识别系统中进行了一系列的测试。本文所做工作及创新有以下:1、在Linux环境下,构建了HTK语音识别系统。2、我们对特征参数做了一些研究改进:在识别系统中采用能够反映人对语音的感知特征的美尔频率倒谱系数(MFCC)作为特征参数,将语音信号的动态特征(瞬变特征)也加以考虑,实验证明这种增加混合特征参数的方法,能使系统的识别率有显著的提高。比较了各种参数的识别率,得到了识别效果最佳时的特征参数。3、在模型训练时,采用了隐马尔可夫模型,实验测试了不同的状态数,得到了为10将达到最好的识别效果。4、对语音数据库进行了设计、制作及训练模型过程,实验测试(参数取前面实验的结论)标准语音库的数据(采用AVICAR现有的数据库)和收集的语音库数据,进行了比较。发现收集的语音数据的识别率大大低于标准语音数据的识别率,得出收集不同地域语音数据库重要性的结论。分析了识别率低的原因;然后对收集的语音库中的数据根据不同的地域进行相互比较,总结识别率差异的原因,为设计制作语音库提供了借鉴的经验。5、对训练的模型进行了改进:将TIDIGIT中的中国人语音数据挑选出来,加入一次、两次、三次到AVICAR中的数据中一起训练模型,再对进行识别的测试比较,分析结果得到,识别率有所提高,由此可见,利用针对地域性强的模型进行语音识别,将大大提高识别效果。
其他文献
电子商务是信息化社会的商务模式,是商务的未来,它不仅使传统商业变得更加快速、便捷,还将从根本上改变传统商业结构和运作模式。现在阻碍电子商务发展的一个重要因素就是安
ATEM传输室广泛应用于电磁兼容试验、电磁场生物效应和计算机辐射泄露的研究以及场探头的校准试验中,由于ATEM传输室结构较复杂,计算ATEM传输室电气特性时所使用的方法繁琐,给AT
移动设备与定位技术的快速发展在给人们的日常生活带来极大便利的同时,也产生了大量关于移动对象的轨迹数据。轨迹数据中蕴含丰富的时空信息,对这种时空信息的挖掘和分析可有力
随着数字技术和因特网的发展,各种形式的多媒体数字作品(图像、视频、音频等)纷纷以网络形式发表,其版权保护成为一个迫切需要解决的问题。近年来迅速发展起来的数字水印(digit
伴随着计算机应用技术与信息技术的不断发展,计算机及其智能芯片系统的应用在日常生活中已是随处可见。合理、高效地开发嵌入式系统,使其更加优质地服务于人们的生活,已成为计算
图形用户界面系统(GUI)是系统级的支撑软件,它可以和文件系统、操作系统内核等一起构成一个完整的操作系统,GUI为用户提供与应用系统交互的可视化通道,同时也为程序员提供了一种
本文主要介绍了如何在CML语言中实现带指针类型的编译器。指针类型在编译器中的实现主要涉及到语法分析、语义分析、中间代码生成以及存储空间的管理。语法分析器有三类。一
高速磁浮交通作为一种高效、经济和安全的交通技术,如何确保磁浮列车的行车安全,是建设和发展高速磁浮列车系统必须解决的首要问题。其中,磁浮列车系统分区间数据传输的安全性、
本文研究的中心内容为近似算法,其具体应用是围绕网络中的调度问题展开的,这里的网络环境主要指的是网格。近年来,由于网格技术的高速发展,其上的任务调度问题也成为研究的热点。
据调查,目前国内食品行业中瓜子类扁平颗粒体精细分拣工作主要由人工完成,为改善这一现状,本文结合图像处理技术以及数理统计分析相关理论知识,对瓜子彩色图像中纹理与颜色重