基于深度学习的面向聋哑人多源声音识别算法研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:djsfhkjthrekl
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据的日益发展,如何处理多地多模数据成为现在研究人员关注的重点。而其中最引为注意的则是图像和语音数据,这些数据描述了人们生活的方方面面,与人的生活日益相关。同时近年来,深度学习在图像处理,语音,自然语言处理等方面的有效应用也给数据处理技术开辟了一片新天地。本文基于深度学习,以聋哑人的声音感知为背景,提出了环境无关性语音识别模型。本文首先详细描述了一种提取语音基础特征算法-梅尔倒谱系数,并将该算法作为识别模型的数据预处理部分。该算法一共包含6个部分:预加重,加窗离散傅立叶变换,梅尔滤波带宽,倒谱以及能量转换,并且详细给出了这6个模块的理论和相对应的实现。其次,针对收集到的语音数据的类型,本文分别提出了监督化识别模型(卷积神经网络)和半监督化识别模型(限制布尔曼滋机-支持向量机)。在语音数据含有大量标注的情况下,利用深度卷积神经网络(EICNN)来提取语音数据的环境无关性特征,其平均准确率已超过了85%。同时考虑到减少计算资源,本文又提出了一种基于卷积神经网络的压缩算法SqueezeNet。实验表明该压缩算法能将原有模型参数压缩至百分之一以下,但是其识别准确率却没有明显下降。在针对语音数据只有少量人工标注的情况下,本文提出来限制布尔曼滋机-支持向量机框架(EIRBM-SVM)。首先利用布尔曼滋机无监督地训练无标注的语音数据,进而提取高维特征,然后利用这些高维特征和有标签的数据来训练支持向量机,以此完成该半监督识别模型框架。在该框架下,事件的识别准确率已超过80%,已经超过目前的基线75%。在实验部分,本文分别对这两种模型的识别准确率和其他现有识别算法进行了对比,其准确率已经比AdaBoost,RandomForest和多层神经网络的准确率分别超出了70%,65%和68%。另一方面,本文也对这两种模型的事件误判率,抗噪能力,收敛能力,参数调整等进行分析。最后本文通过可视化原始数据和进行特征抽取后的数据,发现卷积神经网络确实具有提取音频数据环境无关性的能力;也从另一个方面证明了现有机器学习算法存在的缺陷和问题。
其他文献
本文综述了与食品清洗有关的日本各公司的杀菌、清洗产品,详细介绍了杀菌清洗产品的特点及应用情况,并指出了这些杀菌清洗产品技术进展的新动向。
《内经》与《周易》关系探析刘荩文辽宁中医学院中医基础教研室(沈阳110032)《周易》与《内经》都是我国古代的经典著作,二者成书时代相近,在学术思想上互相渗透,相得益彰,故有“医易相通
杰克·伦敦是美国著名的现实主义作家,短暂的一生创作了许多自然主题的作品,让人们不断地思考人与自然的关系。《热爱生命》表现了自然的两面性,在淘金者面前既表现出冷
福州冶城是在汉代闽越融合的文化背景与积极吸收中原人居环境营建之有利经验的基础上形成的,它顺应原始聚点"逐水而居"的人居习惯,体现了城水相适的人居智慧,是闽地人居实践
《普通高中语文课程标准》明确指出:"核心素养是学生在接受相应学段的教育过程中逐步形成的适应个人终身发展和社会发展需要的必备品格和关键能力。"如何在古诗词教学中提升
客观上,园林的造景以及建筑的建造有雨的因素,而主观上,雨为园林增添了一抹诗意,与芭蕉、荷、竹、梧桐营造出不同意境。匾额楹联中也体现出多样的雨文化。雨意象在苏州园林中体现
嘉靖到万历年间,是明代社会经济最为繁荣富庶的阶段。然而整个环境的问题,或者说是民生的问题,在这个时期也表现得最为严峻。环境的恶化,在河港水利的淤塞、水旱疫病的发生、
(接上期)3)按下F3键后,[GND]变为ON,此时将输入信号接地.再按下F3键后,变为[OFSET]ADJ进入波形信号垂直移动(正负一格半),按动▼▲就可以完成信号的垂直移动.
我们用升降散合三金散加味治疗尿道结石77例取得满意疗效,报道如下。1临床资料106例均为我院1998年5月-2014年12月收治尿道结石患者。男67例,女39例;年龄25~67岁,平均46岁;肾结石29
通过网络开展思想政治教育是新时期高校加强德育工作的新举措,如何有效地开展网上思想政治教育工作,一直是德育工作者面临的一项重要课题。本文结合高校网络思想政治教育工作