限定领域对话的语音识别问题研究及系统实现

来源 :北京大学 | 被引量 : 0次 | 上传用户:zfjbjxw
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音对话是人们进行交流的最普遍的方式。当前对对话语音进行分析的需求越来越大,因此,限定领域对话的语音识别研究的重要性也越来越大。   限定领域对话语音识别在实用化过程中,面临着两个问题,一是限定领域对话语音识别应用对识别速度要求很高,二是限定领域对话的文本标注语料非常稀缺。   针对第一个问题,有研究表明,基于加权有限状态转录机(Weighted FiniteState Transducer,WFST)技术对搜索空间进行静态扩展,可以提高语音识别解码的速度。针对第二个问题,限定领域对话的文本标注语料虽然非常稀缺,但它涉及到的词汇较少,且具有领域相关性。基于WFST技术,根据这些特点构造限定领域对话的语言模型,可以在一定程度上解决数据稀疏的问题。   综合以上分析,本文实现了静态扩展搜索网络的语音识别解码器,详细分析了限定领域对话中的领域相关词汇结构特点,基于WFST技术把这些特点引入到对话语言模型建模过程中,并提出了WFST框架下的语言模型训练方法。   实验表明,静态扩展搜索网络的语音识别解码器,相比于采用动态扩展搜索网络的Hdecode解码器,在同等错误率下,速度提高了约50%;基于WFST技术引入词类结构信息的语言模型,相比于传统三元文法,对于机票预订对话语音的识别,字错误率有1.0%的下降。
其他文献
随着计算机飞速发展以及互联网技术的普遍应用,互联网的安全问题也日益突出,而面对日益严重的互联网安全问题,传统的基于被动的互联网防御技术由于其对攻击者了解不足,再加上
图像拼接技术是扩大图像视场范围应用的一项必不可少的关键技术。但现有的图像拼接技术研究大都对800x600以下的图像进行研究,为了提高图像拼接技术的实用性,本系统针对大分
P2P流媒体是目前互联网的热门研究话题,但是现有的P2P流媒体应用存在用户体验差的问题,表现为启动延迟大、播放延迟大、播放持续性差、画面质量不高等,而造成这些问题的根本
作为工业制造装备的执行机构,伺服系统性能直接决定着整个装备的控制性能。目前高性能伺服领域被国外厂家所垄断,研发具有自主知识产权的高速高精度的伺服系统具有重要意义。课
内存访问延迟一直是制约计算机系统整体性能的瓶颈,计算与存储之间性能上的鸿沟导致CPU的运算能力因访存操作而产生大量的空等时间。Cache技术可以有效地缓解或隐藏存储访问
随着虚拟化技术的广泛应用,虚拟机开始广泛应用于各种数据中心和高性能计算平台,因此对虚拟机的物理载体--虚拟磁盘文件的备份需求也越来越强烈。传统的文件同步技术如rsync、R
基线是星载InSAR的关键参数,基线测量精度直接影响星载InSAR数据的应用效果。激光干涉测量技术以其特有的大测量范围和高测量精度优点,广泛应用于精密测长领域。为了将激光干
无线传感器网络被列为21世纪最有影响力的和改变世界的十大技术之一,其在科学研究、环境监测、日常生活等领域的作用越来越重要。无线传感器网络网关在整个传感器网络起着桥梁
众核技术已成为当前处理器体系结构发展的必然趋势,如何对众核处理器设计进行有效而充分的验证,成为众核处理器芯片能否流片成功的关键因素之一。根据有关的研究数据,目前多数的
有效载荷系统的集成测试是空间有效载荷研制过程中的一个重要环节。实现对有效载荷系统的智能测试,对提高测试的效率、准确率和降低人力成本具有重要的意义。因此,有必要对有