基于深度学习的骨导语音到正常音转换的研究

来源 :重庆理工大学 | 被引量 : 0次 | 上传用户:Fukuki
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音作为人与人之间最方便、直接和有效的信息交互方式,一直以来常常受到周围环境噪声的干扰。常见的语音增强技术能够很好的对带噪语音进行降噪,进而提高语音的质量,但如果处于广场、码头甚至战场等存在强烈噪声的环境下,现有的语音增强技术的增强效果将会明显降低。骨导语音是通过采集人在说话时在喉头、耳后乳突、太阳穴以及颅顶等部位表面产生的振动信号而得到。相比通过空气进行传播的正常音(又称气导语音),骨导语音借由人体的骨骼以及组织器官进行传播,从根源上屏蔽了来自周围环境的噪声。但骨导语音听上去比较沉闷、语音清晰度和可懂度较差,无法和正常语音一样被人们直接使用。将骨导语音转换为正常音具有较为广泛的应用前景,因此近年来骨导语音转换的研究备受关注。本文主要研究基于深度学习的骨导语音转换技术,具体内容主要如下:(1)建立汉语普通话骨导语音库采用标准模式建立了一套包含气导语音和骨导语音的普通话语音库,为实验提供真实的数据支撑。语音数据库的录音语料来源于北京语言大学创办的BCC语料库中精心挑选的包含体育、艺术、生活等方面的500条具有代表性的语句。语音库由2男2女共4名普通话发音标准的人员分别同步录制320句骨导语音与正常音。同时通过互信息量分析模型实验验证了汉语普通话骨导语音库的有效性。(2)提出一种基于深度学习的骨导语音转换方法双向长短期记忆网络(Bidirectional Long Short-Term Memory,BLSTM)可以提取时间序列的时域相关性,卷积神经网络(Convolutional Neural Network,CNN)中的卷积层内的神经元是由前一层中位置相邻区域的多个神经元经过卷积计算得到的,对于包含时域和频域两个维度的语音特征参数来说,卷积层能够同时提取语音特征参数中隐含的时域和频域相关性信息。为了充分利用语音的时域和频域相关性进行建模,提出一种基于深度双向长短期记忆-深度卷积神经网络(Deep bidirectional long and short term memory-deep convolutional neural network,DBLSTM-DCNN)的骨导语音转气导语音的语音转换模型。实验结果表明使用DBLSTM-DCNN模型相比深度神经网络(Deep neural network,DNN)模型与BLSTM模型得到的转换语音更加接近正常音。(3)提出一种基于特征融合的骨导语音转换算法语音中包含许多不同的语音特征参数,其各自对应着不同的物理意义和声学意义,不同特征之间可能存在某种互补性。梅尔倒谱系数(Mel-scale Frequency Cepstral Coefficients,MFCC)凭借其更加符合人耳听觉感知的特性在语音信号分析技术中常常被使用。为了使用MFCC与WORLD模块提取的频谱包络和非周期性成分之间存在的互补性,提出一种基于特征融合的骨导语音转换模型,实验结果表明使用特征融合的骨导语音转换模型相比使用单一特征的骨导语音转换模型可以得到更好的转换效果。
其他文献
进入2020年后,世界能源日益告急,环境问题以及温室效应越演愈烈;除了进一步优化传统内燃机技术,新能源汽车已成为未来发展趋势之一;纯电动商用汽车相较于传统汽车具有能耗低、噪音小、结构简单以及易于生产等特点,被各国政府广泛关注。本文基于纯电动商用汽车为研究对象,引入驾驶员风格系数为调整参数,同时对驱动控制策略与换挡曲线进行调节,制定不同驾驶风格下的驱动控制策略与换挡策略。论文主要研究内容如下:(1)
慢性乙型肝炎(chronic hepatitis B, CHB)是由乙型肝炎病毒(hepatitis B virus, HBV)引起的慢性进展性疾病,如果没有得到及时有效的抗病毒治疗,最终将进展为肝硬化或肝细胞癌。为了实现世界卫生组织提出的"2030年消除病毒性肝炎作为重大公共卫生威胁"的目标,2019年中华医学会感染病学分会和肝病学分会组织专家对我国CHB防治指南进行了更新,为临床上对其进行预防
锆及其合金因具有较好的综合力学性能和优异的核性能等优点,被广泛应用在化工行业、生物医用和核反应堆等领域。但是由于锆合金的硬度低和耐磨性能较差,其在摩擦情况下容易发生磨损失效。因此,改善锆合金表面的硬度和耐磨损性能是提升锆合金使用寿命的关键。本论文以一种典型的商业锆合金(Zr702)为基体,采用脉冲激光熔覆(pulsed laser cladding,PLC)技术成功地在基体表面制备了六种CrHfN
随着社会进步和发展,摩托车作为人们生产生活的重要工具,愈发重视其使用感受和体验,特别是振动舒适性。摩托车的振动舒适性水平也直接反映了制造企业的开发和设计水平。因此,研究摩托车振动舒适性,对于满足人们群众需要,提高企业设计制造水平,具有十分重要的工程价值。本文以企业某摩托车为研究对象,对其进行振动舒适性试验评价,采用试验和仿真相结合的方式,进行试验工况激励的振动传递路径分析,通过改进主要路径中的悬置
目前,随着智能制造的快速发展,传感器作为直线电机和数控机床的全闭环控制的关键部件,对其高精度和精确定位要求越来越严格。全闭环系统中加工精度取决于绝对位置传感器对其位置的准确反馈信号,反馈信号的精度是实现数控机床的高精度和高效率的关键。工业加工广泛应用的绝对位置传感器是绝对光栅,但绝对式光栅产品基本依赖进口,我国在绝对式光栅技术方面很难有突破,绝对式光栅传感器发展的技术难点在于复杂的绝对式编码和近乎
WS2和WSe2是典型的过渡金属硫族化合物(TMDs),晶体具有层状结构,其中过渡金属原子与硫族原子以共价键结合形成三明治式的单层,层与层之间以范德华力相互作用。作为半导体材料,二维TMDs独特的层状结构及可调的禁带宽度使其在微纳光电子器件、量子器件等领域具有极大的应用前景,已经引起了广泛的关注。随着研究的深入,已经发展出多种方法制备二维TMDs,然而,高效、高质量、低成本、可控地制备大尺寸、大面
电驱总成作为电动汽车的核心部件,其疲劳可靠性不仅影响着使用寿命,而且关系到电动汽车的行驶安全。因此,电驱总成可靠性越来越受到制造商和消费者的重视。振动疲劳试验也成为了验证和评价电驱总成可靠性必不可少的重要环节。目前,对于电驱总成的振动疲劳试验主要是利用室内振动试验台来完成的,一般采用单自由度试验或是近似等效多轴试验的方式,无法精确复现电驱总成在实车实际道路上的振动特性,容易造成欠试验和过试验。因此
随着可再生能源大量并网,并网逆变器作为向电网输送电能的重要功率接口,其控制性能直接影响并网电能质量,因此对并网逆变器控制策略的研究成为时下热点。传统单矢量模型预测直接功率控制输出电压矢量方向与幅值均不可调,使得并网电流谐波含量高、功率脉动大,同时其开关频率不固定,增加了开关损耗。为改善并网电能质量,减小功率脉动,降低开关损耗,本文针对并网逆变器的模型预测直接功率控制策略(MPDPC)展开深入研究。
现如今,随着人工智能、5G等先进技术在汽车行业的广泛应用,汽车正在变的越来越智能化,汽车的智能化给人们带来了很多便利的同时也改善了了交通安全等问题。因此国内各大厂商及研究机构对无人驾驶纷纷投入了大量的精力。无人驾驶技术主要包括环境感知、轨迹规划及轨迹跟踪控制,本文将轨迹跟踪控制技术展开研究。本文首先介绍了无人驾驶车辆轨迹跟踪控制技术的研究背景及研究意义,对无人驾驶车辆及无人驾驶车辆轨迹跟踪控制方法
虚弱是影响老龄人口健康预期寿命的重要因素。身体虚弱在初期表现并不明显,但其程度的加深会影响老年人的肢体活动能力,严重时会导致中风和瘫痪,影响生活质量。未来我国人口老龄化形势严峻,因此,及时发现身体虚弱的早期症状,进行适当的干预治疗,对于延缓身体虚弱进程、应对人口老龄化具有重要意义和实用价值。近年来,虚弱的评价方法和手段已经成为国际上康复医学领域的研究热点之一。本论文针对目前国内对于虚弱评估的研究处