语音识别中的隐马尔可夫(HMM)模型和编码解码(encoder-decoder)模型

来源 :科学与生活 | 被引量 : 0次 | 上传用户:chaowei7838
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:本文分析了语音识别中的两个经典模型的算法原理——传统的隐马尔可夫模型(HMM)和基于神经网络的解码编码模型(encoder-decoder)模型。
  关键词:语音识别;隐马尔可夫;解码编码
  语音识别是将自然语言中的语音序列转换为文本序列的一个过程,它的基本思路是:给定一个声学输入序列O=o1,o2 ,o3 ,o4 ……,ot ,把该序列转化成一个由单词序列构成的句子S=w1,w2,w3,w4,w5,……wn 。该转换过程中,经典的技术应用包括传统的基于统计的隐马尔可夫模型和现代的基于神经网络模型。本文将对两种模型的基本原理进行分析。
  1基于隐马尔可夫算法的语音识别原理
  语音识别过程涉及到两个序列:一个可观察到的声学序列O和一个隐藏的状态序列Q:声学序列背后隐藏的文本序列。
  基于隐马尔可夫算法的语音识别本质上是一种基于统计的算法,其基本思路是给定的一个语音序列O,计算出在所有的状态序列Q中,可能性最大的那一个。先求出每个可能的状态序列的概率P(Q|O),从中挑选概率最大的状态序列。
  对于单个的序列的概率计算,用简单的马尔科夫链算法即可以轻松地算出该序列的概率。但是对于类似语音识别、词性标注这样存在一个可观察的序列和一个隐藏的序列的现象进行概率计算,要比单序列更复杂,更适合使用隐马尔可夫模型。
  隐马尔可夫的基本参数包含5个方面:
  (1)隐藏序列状态的集合Q=(q1,q2,q3,…… ,qn)。在语音识别里,就是语音相对应的词语的发音组合,包含某个语言里所有词汇的所有的发音组合,可以通过发音词典来查找。
  (2)隐藏序列状态Q=(q1,q2,q3,……,qn)之间的转换概率集合,也叫转移矩阵A=(a01,a02,a03,…… an1,……,ann)。该矩阵是一个n*n的列和行均为隐藏序列状态的矩阵。
  (3)观察似然度集合B=bi(ot),表示从状态i生成观察t的概率,也构成一个矩阵。
  (4)初始状态分布,表示每个状态在开始时候的概率。
  (5)合法的接收状态集合。
  如图1就是单词need的HMM模型(Jurafsky,2009):
  在该模型中,存在两个序列:观察序列(由声谱特征矢量构成)和单词状态模型(状态转移模式序列)。单词need发音组合有五个状态构成:初始状态start,n,iy,d,和接收状态end。每个状态之间的连线标记的是状态之间的转换概率。其中start和end为非发射状态,其它为发射状态。每个发射状态上都有一个自反圈,模拟状态的可变音延。例如o1和o2就是状态n的音延,o3,o4,o5就是状态iy的音延。在状态iy后还增加了可选的路径,模拟状态d弱化或者消失从而直接进入到end状态。该模型还记录了每个状态下每个观察发生的概率b(o)。
  在隐马尔可夫模型中,根据贝叶斯规则,可能的状态序列的概率P(Q | O)= P(O | Q)*P(Q),计算出这些可能的状态的概率,对他们进行比较,找出最大的概率的那个序列,就是最后转换的目标。其中,P(Q)就是隐藏状态之间的转换概率,记录在HMM模型的矩阵A中,P(Q | O)就 是观察的似然度,记录在HMM模型的矩阵B中。
  2编码解码模型(encoder-decoder)
  随着基于人工神经网络的深度学习技术的兴起,利用深度学习技术进行语音识别逐渐成为主流的路徑,其中的编码解码模型(encoder-decoder)表现尤其突出。
  如图2所示,一个编码解码模型由一个编码器和一个解码器构成,向一个编码器encoder输入序列X1,X2,X3,X4……(在语音识别中就是输入带有声学特征的声谱片段向量),编码器对输入序列通过多层神经网络(RNN或者Transformer等)进行编码,生成一个向量表征C,这个向量表征C被传递到解码器,由解码器里边的神经网络进行解码,最后生成输出序列Y1,Y2,Y3……(在语音识别中就是生成单词序列或者字母序列)。
  编码解码模型适合语音识别在于以下几点:(1)语音识别是把有着声学特征的声谱片段序列转化为单词序列。因为声谱片段大多是以10毫秒为单位的切片,大约每100个左右的声谱片段最后才能映射为一个单词,这样输入序列的长度和输出序列的长度差异很大,传统的隐马尔可夫模型要求输入序列和输出序列等长,但是编码解码模型并不要求输入输出序列等长,因此计算方便。(2)在隐马尔可夫模型中,需要分别计算转换概率和观察的似然度,计算量大,操作复杂,中间环节多。但是在编码解码模型中,这些中间环节的计算都不必要,只需要将输入输出数据对喂给编码解码器,对编码解码器进行训练,编码解码器能经过神经网络自动从数据对中提取特征进行学习,从而实现对输入的音频进行文本转换。
  整个编码解码模型利用交叉熵损失函数在训练数据集上进行训练,对每一个迭代计算损失,利用反向传播优化整个网络,经过多次迭代训练以后模型达到最优状态。
  3总结
  利用隐马尔可夫模型进行语音识别,是统计算法时代的经典技术,复杂却有效。而基于深度学习技术的解码编码模型是深度学习技术的应用,简单、快捷而高效。两种方法背后都体现了数学算法在解决实际问题中的应用。
  参考文献:
  [1]Jurafsky D.,Speech and Language Processing —— An Introduction to Natural Language Processing,Computational Linguistics,and Speech Recognition,Prentice Hall,2009.
  [2]Chan,W.,Jaitly,N.,Le,Q.,andVinyals,O. (2016). Listen,attend andspell: A neural network for large vocabulary conversational Speech Recognition. ICASSP.
  作者简介:
  黄万武,教授,湖北工业大学外国语学院,研究方向:计算语言学,自然语言处理
  付煜琪,学生,湖北工业大学外国语学院英语专业学生
  熊素娟,副教授,湖北工业大学外国语学院,研究方向,应用语言学
  (*本文为湖北工业大学大学生创新创业项目“智能语音识别技术在大学英语口语考试自动评分中的应用”的成果之一,项目编号:S201910500090;本文为湖北省教育厅人文社科重点项目“英语作文自动评分系统中“算法+语言规则”相结合的理论与实践研究”项目成果之一,项目编号:18Y069)
其他文献
目的 探讨腹腔镜在低位直肠癌切除术保肛治疗中的可行性、安全性、根治性及短期临床效果.方法 回顾性分析我院2010年4月至2012年3月应用腹腔镜进行直肠癌低位保肛治疗的24例手术患者的临床资料,并与我院同期行开腹低位直肠癌根治术的患者进行对比分析.结果 24例直肠肿瘤距肛门5~7 cm的患者均行腹腔镜术,用电钩游离的方法,均低位保肛成功,手术吻合过程均较顺利,未见吻合口裂开,切割圈均完整.术后切缘
目的 探讨炎症因子与2型糖尿病患者颈动脉内膜中层厚度(IMT)的关系.方法 50例2型糖尿病患者,根据胰岛素抵抗指数分为胰岛素抵抗组(IR组)26例及非胰岛素抵抗组(NIR组)24例,同时选取24名健康体检者为对照组.3组患者均行超声检查颈动脉IMT,测定空腹血糖(FPG)、空腹胰岛素(FINS)、血脂、超敏C反应蛋白(hs-CRP)及肿瘤坏死因子(TNF-α)等指标,采用自我平衡模型分析法(HO
病历摘要:患者女,73岁.因"间歇性下腹部疼痛1周,加重5h,伴发热"入院.近期内排便习性无改变,无腹胀等不适.10余年前行阑尾切除术.体格检查:右下腹局部膨隆、可见肿块突出约5 cm×10 cm,质地偏软,有压痛,未闻及肠鸣音;下腹部压痛明显伴反跳痛,伴轻度肌抵抗,叩诊鼓音不明显,肠鸣音5~7次/min,肛门有排气.血常规:白细胞计数:6.94×109/L,中性粒细胞:0.508,红细胞计数:3
目的 对比观察手术方法和保守方法治疗急性髌骨脱位的临床效果.方法 回顾性分析自2004年6月至2009年10月手术治疗和保守治疗急性髌骨脱位患者的临床资料,其中手术组18例,保守组17例,记录再脱位的病例数,CT测量髌骨外移度及髌骨倾斜角并以Kujala评分进行膝关节功能评估.结果所有患者均随访12个月以上.(1)手术组无再脱位病例,保守组有7例(41.2%)发生再脱位,两组比较差异有统计学意义(
摘要:随着教学的改革,双减政策已落实于各个院校,乃至每个学科。在小学语文学科中,教师应围绕双减政策,采用多样的方法开展教学,做到既能减轻小学生课业负担,还能保障优质的课堂教学效率,让小学生扎实掌握好语文相关知识,在加强记忆的同时提高其综合能力与学习质量,得以打造小学语文高效课堂。本文将针对双减政策下如何打造小学语文高效课堂提出几点策略,以供参考。  关键词:双减政策;小学语文;高效课堂;打造  前
目的 探讨枸橼酸莫沙必利分散片对功能性消化不良(FD)患者近端胃舒张和排空功能的影响.方法 选择我院2012年1-12月住院的FD患者60例为FD组,给予枸橼酸莫沙必利分散片5 mg/次、3次/d口服;另选择我院同期健康体检者60名为对照组,应用超声GE-200型诊断仪检测对照组入选时和FD组患者服药前后胃底气体评分、延迟排空相、近端胃容积、近端胃液体半排空时间(T1/2).结果 FD组延迟排空相
目的 观察以质子泵抑制剂(PPI)为基础的不同方案根除幽门螺旋杆菌(Hp)的效果.方法 选择经内镜下活检病理及快速尿素酶试验确诊的1203例Hp感染患者,根除Hp疗程结束4周以上复查13C-尿素呼气试验,回顾性分析不同根除Hp方案疗效.所有患者均采用PPI为基础(埃索美拉唑、雷贝拉唑、兰索美拉唑、泮托拉唑、奥美拉唑,常规量每日2次)±不同抗菌药物的三联或四联方案,用药疗程分为7、10、14 d.A
目的 评价阿奇霉素序贯疗法治疗小儿肺炎支原体肺炎(MPP)的效果及安全性.方法 将70例小儿MPP患儿按随机数字表分为观察组及对照组各35例.观察组给予阿奇霉素10mg/(kg·d),1次静脉滴注,治疗3~5d后予阿奇霉素口服序贯治疗,10 mg/(kg·d),每周连服3d停用4d为1个疗程,共用3个疗程.对照组给予红霉素20 ~30 mg/(kg·d),1次静脉滴注,共14 d.治疗2周后观察两
目的 探讨入院时血清热休克蛋白(HSP) 60、HSP65检测对冠心病患者1年内心血管事件的预测价值.方法 选取南京医科大学附属无锡市人民医院和无锡市第二人民医院2009年11月至2011年2月心内科住院的89例患者作为研究对象,分为急性冠状动脉综合征(ACS)组50例、稳定型心绞痛(SAP)组19例、无冠心病(non-CHD)组20例.测定所有患者入院即刻血清中人HSP60、HSP65浓度.并对
目的 探讨原发性高血压患者血浆醛固酮、纤维蛋白原浓度变化与左心室质量的关系.方法 选取273例原发性高血压患者,抽取肘静脉血进行相关生化指标的检测,如应用放射免疫法检测血浆醛固酮浓度、酶联免疫吸附法检测纤维蛋白原浓度,免疫比浊法测定D-二聚体浓度.应用超声心动图检查患者的心脏结构和功能进行评估.按照纤维蛋白原浓度的三分位数分为低值(A组)95例、中值(B组)87例、高值(C组)91例共3组,对3组