聋儿语音恢复系统的语音识别研究

来源 :山东大学 | 被引量 : 0次 | 上传用户:my561
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聋儿康复训练系统主要是将受训者所发语音进行处理后提取出语音的特征,然后再进行语音的识别训练,让受训者将自己的发音和标准音的特征参数进行比较,逐步纠正自己的发音。语音识别是该系统的核心技术。本文主要论述了该系统的语音识别原理,包括语音的预处理和端点检测,特征参数的提取,包括基音频率,LPCC参数和MFCC参数,隐马尔科夫识别原理,最后用HTK工具包进行了语音识别的实验。在语音的预处理阶段,主要论述了语音去噪和端点检测。在去噪方面,我们提出一种新的阈值设定的小波去噪的方法,这种阈值参数介于软阈值和硬阈值之间,具有良好的连续性和可导性,可以更加有效的抑制高斯噪声。在端点检测方面,我们对传统的双门限方法进行了改进,通过对受训语音设定三个端点值包括音节起始端、浊音段起始端及音节结束端三个端点,然后应用时域特征参数即可准确检测出语音的端点。在语音的共性特征参数提取方面是本系统的关键所在,首先我们对语音的基音频率进行了提取,在提取方法上对传统的平均幅度差方法(AMDF)法进行了改进,对语音幅度值进行差值平方,然后进行归一化,再对提取的语音基音频率进行搜索试探和中值平均的方法进行后处理,有效地抑制了孤立点的存在,提高了精确度。然后详细介绍了LPCC和MFCC参数的特点及提取方法,以及两者各自的优缺点。隐马尔科夫模型是用统计原理建立语音识别的声学模型,是目前语音识别的主流声学建模技术,本文随后介绍了隐马尔科夫模型的原理及其在语音识别中的应用。最后在HTK平台上进行了特定人连续语音识别的实验,详细阐述了实验步骤和命令语句。引入了基于上下文相关的三音素模型,解决了协同发音的问题。使用了HTK的决策树理论,通过绑定三音素,修补哑音等方法,不断地调整系统模型,使实验的识别率最大化;通过提取多种语音特征参数并对其进行了对比试验以比较不同特征参数的识别结果;通过试验不同的HMM模型的状态数对不同识别率的影响,确定出最优的模型的状态数。
其他文献
随着互联网规模的增长,拥塞已经成为一个十分重要的问题。近年来,主动队列管理(AQM)已成为网络拥塞控制领域的一个研究热点。AQM通过评估网络状态、预测拥塞的出现,对分组进行有
遗传算法(GA,Genetic Algorithm)是一种基于生物界演化的随机搜索技术。近年来,遗传算法广泛而深入地应用于通信中的各种联合优化问题并已经有了很多成功的实例。盲均衡技术
作为认知无线电技术与Ad hoc网络的结合,认知Ad hoc网络既具备传统Ad hoc网络的多跳、分布式控制、缺乏固定设施和自组织等固有特征,又可以通过频谱感知、频谱共享和多信道切
现在4G蜂窝技术已经开始广泛的部署在世界各地,而第五代(5G)移动无线通信技术成为了新兴的研究领域。大规模MIMO的应用成为5G技术的一个热门领域,跟传统的MIMO技术相比,大规
控制器局域网(CAN),属于总线式通讯网络,是一种有效支持分布式控制系统或实时控制的串行通信网络。CANopen是在CAN2.0基础上发展起来的应用层通讯协议,它是作为一种标准化的嵌
视频人脸卡通是近年来计算机图形学的研究热点,其相关产品不仅为人们的娱乐生活带来很多乐趣,更是具有广阔的市场应用前景。目前利用计算机生成视频卡通的主流方法无法兼顾处
正交频分复用(OFDM)技术作为一种高速信息传输技术,具有频谱利用率高、抗频率选择性衰落和码间干扰能力强等优势。但OFDM系统和多输入输出MIMO- OFDM系统对时间和频率同步误
随着科学技术的发展,传统的基于ISA、PCI接口的数据通信系统在使用中表现出许多弊端,针对这种现象,结合新兴技术,本文提出了一种基于USB接口的数据通信系统的实现方案,实现PC
随着电子技术的飞速发展,先进的CAN总线通信技术逐渐被引入到船载仪表的设计中。   鉴于CAN总线技术的突出优点及其在船舶领域的成功应用,本课题针对仪表系统的发展方向,结合
近年来,随着计算机网络和多媒体技术的飞速发展,流媒体技术的产生满足了人们快速获取多媒体信息的需求。因此,基于流媒体技术的相关开发与应用成为当前热点之一。视频会议,视