复杂声学场景下多人对话语音识别的预处理方法研究

来源 :中国科学技术大学 | 被引量 : 4次 | 上传用户:xinshuai99
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现如今,人工智能产业正处于快速发展的阶段,各种智能算法、智能硬件等层出不穷,它们将在不远的将来深刻改变人们的生活。为了方便人与智能设备之间自然无障碍的交流,首要任务就是推进针对语音识别的研究,即让机器明白人类的语言,并将其转换为精准的文本信息。可以想象,通过语音识别可以方便的将人类各种指令、需求发送给机器,机器能够做出相对反应并能够反过来与人进行交互,这就是人们心中所畅想的“智能机器人”所能达到的水平。在一代又一代研究人员的努力推动下,语音技术的发展已经取得了不小的成就。目前最先进的语音识别系统,在相对安静无干扰的场景下,能够达到相当高的识别性能。在某些特定场景下,更是有研究宣称超过了人类速记员的水平。然而,在智能语音识别技术真正落地的时候,由于真实场景的复杂度极大,理想的语音识别水平并不那么容易达到。一方面,语音信号以声波的形式在空气等媒介中从发声源传播至接收端。在这个传播的过程中会遇到各种各样的干扰因素,如环境背景噪声、混响等,会大大降低语音质量和可懂度。所以,让机器准确地识别如此多复杂因素干扰后的信号也是巨大的挑战。另一方面,目前绝大部分研究围绕着对单个目标语音的识别问题,即在当前时刻仅有一个说话人发声。当说话人数量增加,不同人的语音混叠在一起,会使得识别准确率急剧下降。综合两方面,针对复杂声学场景下的多人对话语音识别问题,仍然是一个丞待解决的难点。通常地,可以将整个语音识别处理过程分为前端算法和后端算法两个主要部分来看待。后端算法指涉及到识别的部分,一般包括声学模型建模,语言模型建模和解码算法等,即从信号直接到识别文本的部分。而前端部分,是为了解决原始接收信号中的干扰问题,为后端算法提供尽可能纯净的语音信号,也可以称作预处理算法。针对不同的干扰类型,有不同的预处理算法,例如在高噪声环境下,需要进行降噪预处理,在高混响场景下,需要进行去混响预处理,在多说话人场景下,需要说话人分割聚类预处理或者语音分离预处理等等。本文围绕多人对话语音识别的问题,研究各种前端预处理算法,目的是提供一个完整的算法处理框架。首先,针对环境噪声问题,主要有传统语音增强算法和基于深度学习的语音增强算法。传统的无监督语音增强算法可以较好地处理平稳噪声,但是却难以处理非平稳噪声。几年来,很多研究证明基于DNN的有监督语音增强算法,相较于传统语音增强算法可以取得很大的性能提升,尤其是在处理非平稳噪声的情况下。然而,它在实际应用中面对复杂场景时存在着推广性问题,如语音失真、可懂度降低等。本文首先引入了长短时记忆模型(LSTM),通过其强大的时序建模能力,来捕捉语音序列的长时特性。另外,在语音增强目标函数的设计上,探究了不同方式的优缺点。同时,引入了多目标学习的方法来捕捉不同方法之间的互补性,最终在算法能力和推广性上均取得了提升,并在NSF Hearable Challenge数据上进行验证,取得了较好的听感提升。其次,针对多说话人混合语音分离的问题,我们提出了一种结合深度学习和传统阵列信号处理的特定说话人语音分离系统。具体来说,我们设计了一个两阶段的单通道特定说话人语音分离框架,该框架基于给定的说话人标注信息,能够利用有限的训练数据下对目标说话人语音进行提取。进一步地,我们将其与阵列算法结合,利用空间信息对目标人进行更加精确的估计,同时避免了多人分离的置换问题。我们在CHiME-5比赛的真实远场多人对话语音数据上验证了算法性能。紧接着,在没有说话人先验信息的情况下,需要说话人分割聚类算法对多人对话数据进行预处理。传统说话人分割聚类研究的场景较为简单,主要集中在广播数据和电话数据上,然而在更加复杂的环境下表现不佳。我们提出基于渐进式多目标的语音增强模型和基于信噪比估计的语音增强预挑选算法,能够在不同场景下选择合适的增强目标。最终,在DIHARD比赛上验证了整体设计的有效性。最后,对复杂声学场景下的多人对话语音识别任务,我们在无任何先验知识的条件下,提出了多阵列语音分离算法,直接从远场数据中对多个说话人同时进行估计。分离后的语音能够帮助降低说话人分割聚类系统的混淆性,并最终提升多人语音识别的效果。在本文结尾,我们总结了所有研究工作,并对未来工作进行了展望。
其他文献
<正>(2003年11月15日) 科学研究和国外经验充分证明,公众营养状况是决定全民健康水平和人口素质、影响一国经济社会全面发展的重要因素之一。随着现代文明社会发展进程中人们
会议
微流控芯片是一种通过在微米尺度的结构中,操控纳升到皮升级流体或液滴,完成各种化学和生物学功能的微型装置,它具有消耗样品和试剂量少、混合速度快、样品间无交叉污染以及
在经历三十多年的高速增长后,中国经济已转向追求增长质量、优化经济结构的新阶段。经济结构的转型,客观上促使商业银行的信贷投放行业结构必须做出调整。同时,随着利率市场
凋亡抑制蛋白IAPs调控细胞的多种生物学进程,其过表达与肿瘤生长、不良预后及疗效相关,在大多数人类恶性肿瘤中表达异常升高。cIAPs参与细胞命运的调控过程。TNFα 结合 TNFR
为解决无巷旁充填沿空留巷支护难度大的问题,通过理论分析巷道围岩结构及沿空留巷支护原理,采用单体支柱代替木密集支柱,并配合十字铰接顶梁的支护方式,使矸石流入巷道自然形
肺结核是一种常见的由结核分枝杆菌引起的慢性呼吸道传染性疾病。其病理特点是结核结节和干酪样坏死,易形成空洞。临床上多呈慢性过程,少数可急起发病。常有低热、乏力等全身