语音信号动态特征分析及其可视化的关键技术研究

被引量 : 6次 | 上传用户:ghostlei
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音信息的传递是人们之间交流最方便、最自然的手段。一部分聋哑人不能说话是因为他们的听觉器官遭到损坏,不能将语音信息采集到大脑,但发音器官是完好的。这种情况下的聋哑人,如果辅助于一些视觉训练系统,经过一段时间的专门训练,是可以学会说话并和健全人进行交流。对这种将语音信息转换为可以用视觉识别图像的辅助聋哑人语音训练系统自上世纪六十年代中期以来国内外都有很多研究,但到目前为止这些系统大多采用单一的语音特征表示方法,不仅识别率不高,而且显示的信息过于专业化,不宜为聋哑人理解接受。本文着眼于研究语音生成和感知的机理,特别是语音生成和感知在大脑中的信息传递和处理方式,利用现有技术(小波变换、听觉模型、神经元网络和流行学习方法等)在语音分析方面的优势,提出一种语音在大脑感知系统中的参数描述,并以图形形式进行显示的一种新的语音识别方法。该方法与传统语音识别方法相比,原理易于理解,计算量小;同时又试图证实语音(至少是元音)的感知过程是一个简单的拓扑映射。最终形成的图形易于识别,只需要进行简单的训练,利用聋哑人大脑自身反馈和极强的视觉补偿功能,即可进行语音的辨识。本文的创新点如下:(1)详尽阐述了传统语音识别技术和辅助聋哑人语音训练技术的研究现状,并通过对语音生成和感知机理的系统研究,论证了将人类的语音信号转化为视觉信息的可行性和适用性;同时对现阶段在语音分析领域中使用的各种语音图谱及可视化方法进行了较为深入的研究和探讨,分析了这些方法各自的原理、应用范围、优点和不足;最后在简要阐述传统手工语音信号的特征提取方法(包括LPCC、MFCC和PLP等等)的基础上,基于神经元网络和流行学习方法的基本原理,提出了语音信号自动特征提取的概念和方法。(2)提出了一种新的语音信号可视化方法,该方法利用基于小波理论(WT)的多分辨率思想,建立听觉模型滤波器组来对听觉系统进行模拟,克服了传统语音分析方法(STFT)对高、低频段具有相同的时间分辨率和频率分辨率的缺点,这种特性十分接近人耳对声音信号的感知。对经过小波变换滤波后的语音信号进行特征编码形成语音的组合特征,将该组合特征作为一个新的特征量来表示和反映语音的特征规律;并将这种特征用简单的图形表示出来,利用聋哑人自身的大脑来识别语音,在一定程度上实现了语音变图像的设想。(3)创建并描述了一种基于时间自组织映射网络(TSOM)的语音可读模式。在自组织映射网络(SOM)基础上,引进了时间增强机制来提高系统性能。该方法弥补了原自组织映射网络固定的空间拓扑结构和忽视了时间因素(对于语音信号至关重要)的缺陷。时间自组织映射网络(TSOM)方法对随时间变化的语音谱的可视化尤其有效,连续短时谱形成了二维映射平面上的一条轨迹并且随时间的变化可以观测到语音信号的动态变化规律。(4)提出了一种基于时间线性嵌入(TLE)的语音信号可视化方法。局部线性嵌入方法(LLE)是一种进行特征提取的无人监督的学习算法,特征提取的目的就是在降低语音信号特征维数的同时保留语音信号的大部分关键信息。如果语音变量可以由一小部分连续特征来描述的话,我们可以把语音数据看作是嵌入在所有可能波形的高维空间中的低维流形。本文将流形学习算法运用在语音数据处理中,详细分析并讨论了局部线性嵌入(LLE)的基本算法和局限性;在此基础上提出了基于时间线性嵌入(TLE)的改进算法,尽可能从高维的语音信号中提取出有用的低维结构。该算法在低维空间中分离元音的能力得到了评价并与经典的线性降维方法(PCA)进行了比较;结果表明流形学习算法在低维空间优于经典方法并能发现语音数据有用的流形结构。(5)提出了一种基于听觉模型的语音信号可视化方法,该方法利用Gammotone听觉滤波器组和Meddis内毛细胞发放模型来获取表征听觉神经活动特性的听觉相关图;并将听觉相关图中每个频带的频率分量幅值进行特征编码作为表征当前频带特性的特征向量。与传统语音信号处理方法(如语谱图)相比,该方法能反映出更多的语音频率特性。
其他文献
煤矿开采沉陷引起采动区高等级公路产生下沉、倾斜变形、水平变形、曲率变形以及裂缝、隆起等破坏现象,严重影响了公路的安全运营,开展采动区公路变形信息获取是进行公路下安
21世纪人类面临了严峻的环境威胁,温室效应持续加剧,大自然的能源循环体系已经被破坏,大规模的污染在灭绝着某些生物种类的同时,也危及着人类自身的安全。研究表明,建设活动
目的分析急性上颈椎损伤的CT征像,评价CT在急性上颈椎损伤诊断中的价值及限度。方法回顾性分析34例上颈椎外伤的X线、CT检查资料,6例行MRI检查。结果寰椎骨折7例,齿状突骨折1
在现今世界,对于长距离、大宗货物的运输——船舶运输仍占据主要地位。但是随着世界范围内的能源紧缺问题的出现,特别是燃油价格的不断上涨,对船舶节能的研究也变得越来越迫
先秦两汉时期,巫祝的涵义大致有三种:掌管神职的官职;以沟通鬼神作为谋生手段的群体;沟通鬼神的方式。对于前两种涵义,前辈学者已经多有探讨,因此本文主要探讨巫祝的第三种涵
轴向力与径向力的大小是影响水泵能否安全运行的重要因素之一。若轴向力与径向力过大超过了材料的屈服极限,在水泵运行时会造成严重的后果。因此,解决轴向力与径向力问题是发
旅游业作为一个新兴产业,在繁荣社会经济、带动产业结构调整、促进经济文化交流等方面都发挥着重要的作用。而随着国民收入的提高,游憩活动不断繁荣,它已逐渐显示出不同于旅
从去年10月到今年2月,市疾控中心开展了全市居民健康素养监测工作,全市5056人接受了有效问卷调查,问卷得分为总分80%及以上者被认为具备基本健康素养。日前,监测报告出炉了,具备基
报纸
文章针对传统培训模式所存在弊端引出多家世界500强企业实践证明取得不匪成绩新的培训模式——行动学习,并对新兴起的行动学习法的涵义、与传统培训学习的区别、实施步骤和关
传统聚落由物质形态和精神形态构成。受高原高寒环境和独特民族地域文化的深刻影响,藏族村落的形成和发展具有独特的"地域基因",尤其是历史时期形成的部落体系和藏传佛教信仰