论文部分内容阅读
喉振式话筒是放置在喉部附近的皮肤振动传感器,是一种典型的非空气传导语音的设备。由于它采集不到外界空气传播的噪声,它被广泛应用于各种强噪声环境下的语音采集。但由于喉振话筒采集的是通过肌肉、皮肤等的振动传播的语音,它与传统的采集通过口腔等声道传播的近讲语音相差较大,表现为喉振话筒采集的语音发闷、含糊不清,特别是清音几乎听不到,使得喉振语音的可懂度较差,这限制了喉振式话筒的推广使用。本论文的主要工作就是提高喉振式话筒采集语音的可懂度和自然度,使它听起来更符合人类的听觉。本文提出了基于神经网络的语音转换方法进行喉振语音音质改善。首先分析了喉振语音的声学特征和谱特征,得出喉振语音与近讲语音的主要差别在于声道传输部分。因此只要修改表征喉振语音声道传输函数的特征参数即可,修改方法可采用语音转换的方法。通过比较倒谱系数、线谱对频率、Mel倒谱的声学特性,得出Mel倒谱由于其充分利用了人耳的听觉特性,按Mel频率分区,并通过离散余弦变换去冗余得到正交参量,故Mel倒谱是表征喉振语音较好的特征参量。通过比较基于高斯混合模型的语音转换和基于神经网络的语音转换方法,得出基于神经网络的语音转换方法要优于基于高斯混合模型的语音转换方法。最后得到适用于喉振语音音质改善的语音转换算法。分别提出喉振语音的Mel倒谱参数和近讲语音的线谱对参数,作为神经网络转换的源、目标的特征参量,神经网络采用尺度共轭梯度SCG算法加快训练,得到最优的非线性映射模型。转换时将喉振语音输入到已得到的映射模型中得到音质改善的转换语音。通过对转换音的音质主观评价和客观评价,得出本算法能较好的提高喉振语音的音质。本研究可推广应用到强噪声环境下喉振话筒采集的语音中,可提高语音的可懂度,增强音质。