改进的HMM与BP神经网络混合模型在语音识别中的应用研究

来源 :厦门大学 | 被引量 : 0次 | 上传用户:cherish_zww
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音识别是一门内容丰富、应用广泛的技术。本文着眼于汉语语音识别的主要问题,研究汉语语音孤立词识别的关键技术,以提高语音的识别率和识别模型的收敛速度。本文论述了语音识别的基本原理,从语音信号的时域、频域、倒谱域出发,对语音信号进行分析,介绍了语音信号分析方法中的滤波器组分析方法和线性预测编码技术,并推导了线形预测倒谱系数(LPCC)和Mel倒谱系数(MFCC)。在特征提取中,选用了基于听觉模型的MFCC,并与基于发声模型的LPCC参数进行分析比较。隐马尔可夫模型(HMM)和人工神经网络在语音信号处理中都有广泛的应用,本文剖析了两者在语音信号处理上各自的优缺点。为取HMM和人工神经网络这两种模型各自的优异特性,在本文研究的语音识别模型中,采用它们的混合模型,并提出了一种新的结合方式。即,将HMM的最佳状态序列的输出概率作为人工神经网络的输入。一方面由于BP神经网络能够根据提供的数据,通过训练和学习,找出输入输出的内在关系,不需要一个明确的数学解析式;另一方面由于离散隐马尔可夫模型(DHMM)会产生量化的误差,所以采用连续密度隐马尔可夫模型(CDHMM)和反向传播(Back Propagation)神经网络相结合的方式,充分利用了CDHMM的时域建模和BP神经网络强大的分类能力,同时充分考虑了孤立词语音的类间特性。实验表明这种结合方式在一定程度上提高了语音的识别率。本文还分析了传统BP网络训练上的局限性,在前人研究的基础上,对神经元采用更一般tan-sigmoid函数。在训练过程中,调整权值的同时对缩放系数和位移参数进行动态调整,使信息分布存储于权值矩阵及转换函数中,比传统的算法具有更强的非线性映射能力,实验表明这种改进的BP神经网络训练算法能够加快网络的收敛速度,而且能够在一定程度上克服传统训练算法容易收敛到局部极小值的局限性,从而提高了网络的收敛精度。
其他文献
当前INTERNET主要采用TCP/IP网络协议分层结构,网络层采用IPv4协议。由于IPv4已不能满足应用要求,出现了IPv6用来代替IPv4网络层协议,因此形成了IPv4与IPv6网共存局面。转换
视频编解码技术是多媒体技术的重要研究部分,也是构建多媒体应用系统的核心,多年来一直受到世界各地研究人员的重视,国际上,ITU和ISO组织都分别提出了各自的标准体系。H.263
H.264是联合视频专家组(JVT,Joint Video Team)于2003年5月正式推出的新一代视频编码标准,与现有其他标准相同,都采用了基于块的混合编码模型。同时H.264又使用了许多先进技
双目立体视觉一直是立体视觉领域的重要研究对象,在机器人导航、医学诊断、航天测控、虚拟现实等领域有广泛的应用前景。立体匹配是双目立体视觉中的一个重要研究方向。双目视
网络技术在教育教学中的应用日益广泛,应用于教育行业的网络软件产品也大量出现,研究如何更好的将网络技术应用到教育行业,已成为从事计算机应用技术、网络技术教学的广大教师及
手势引擎是基于手势识别的人机交互系统的核心,其手势识别效果的好坏直接影响到基于手势的人机交互系统的交互效果和用户体验。在手势引擎的研究中,手势分割是最重要的处理步骤
安全技术防范系统在一些重要区域应用很多。随着社会和科技的飞速发展,新出现的各种犯罪手段对安防系统提出了许多新课题,而国内的安防系统一般仍采用分布式控制体系结构。本
随着互联网业务的快速发展,对网络带宽提出了越来越高的要求。由于骨干网已有足够的能力支持宽带业务,接入网带宽成为整个传输网络的瓶颈。以Ethernet为基础的EPON(Ethernet
本文的撰写是建立在一个实际项目的基础之上的,即由武汉南天电脑系统有限公司主持开发的武汉市民生银行财税库行横向联网系统。 为提升城市形象,改善税收服务环境,整合财
本文在深入分析网页信息搜集、文件处理、中文分词以及索引模块的基础上,针对目前专业搜索引擎热点研究的专业网页的定向获取问题,设计了新的专业搜索引擎系统。本系统利用人工