论文部分内容阅读
随着大数据的日益发展,如何处理多地多模数据成为现在研究人员关注的重点。而其中最引为注意的则是图像和语音数据,这些数据描述了人们生活的方方面面,与人的生活日益相关。同时近年来,深度学习在图像处理,语音,自然语言处理等方面的有效应用也给数据处理技术开辟了一片新天地。本文基于深度学习,以聋哑人的声音感知为背景,提出了环境无关性语音识别模型。本文首先详细描述了一种提取语音基础特征算法-梅尔倒谱系数,并将该算法作为识别模型的数据预处理部分。该算法一共包含6个部分:预加重,加窗离散傅立叶变换,梅尔滤波带宽,倒谱以及能量转换,并且详细给出了这6个模块的理论和相对应的实现。其次,针对收集到的语音数据的类型,本文分别提出了监督化识别模型(卷积神经网络)和半监督化识别模型(限制布尔曼滋机-支持向量机)。在语音数据含有大量标注的情况下,利用深度卷积神经网络(EICNN)来提取语音数据的环境无关性特征,其平均准确率已超过了85%。同时考虑到减少计算资源,本文又提出了一种基于卷积神经网络的压缩算法SqueezeNet。实验表明该压缩算法能将原有模型参数压缩至百分之一以下,但是其识别准确率却没有明显下降。在针对语音数据只有少量人工标注的情况下,本文提出来限制布尔曼滋机-支持向量机框架(EIRBM-SVM)。首先利用布尔曼滋机无监督地训练无标注的语音数据,进而提取高维特征,然后利用这些高维特征和有标签的数据来训练支持向量机,以此完成该半监督识别模型框架。在该框架下,事件的识别准确率已超过80%,已经超过目前的基线75%。在实验部分,本文分别对这两种模型的识别准确率和其他现有识别算法进行了对比,其准确率已经比AdaBoost,RandomForest和多层神经网络的准确率分别超出了70%,65%和68%。另一方面,本文也对这两种模型的事件误判率,抗噪能力,收敛能力,参数调整等进行分析。最后本文通过可视化原始数据和进行特征抽取后的数据,发现卷积神经网络确实具有提取音频数据环境无关性的能力;也从另一个方面证明了现有机器学习算法存在的缺陷和问题。