孤立词语音识别系统的技术研究

被引量 : 40次 | 上传用户:dian
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音识别是近年来十分活跃的一个研究领域,随着技术的深入研究,目前已经得到了广泛的使用,在这些实际应用中,孤立词占据着及其重要的位置。孤立词语音识别系统主要应用于自动控制,如驾驶、机器人操纵、仪器设备操纵以及收集拨号、智能玩具、家用电器操纵,尤其当人手已被占用或无法使用的情况下必须进行声音控制时,更可以起到不可替代的作用。本文在基于MATLAB GUI的基础上以DTW算法为主要原理对孤立词语音命令识别系统进行了研究和实现。按照孤立词语音识别系统的处理过程,文章从语音信号的前端处理开始,分别详细的介绍了每个步骤,包括数字采样频率的选择、预加重、分帧加窗直到后来的特征参数的特点和选取、以及识别算法的选择。最终实现了一个小词汇量的孤立词识别系统,并在MATLAB上面以用户图形界面(GUI)的方式展现了主要相关的过程和结果,这个是系统是基于实时录入语音,并有着良好性能的界面。端点检测是是继语音信号的预处理之后的首个对识别产生重要影响的阶段,有效的端点检测不仅能使处理时间减到最小,而且能排除无声段的噪声干扰,从而使识别系统具有良好的性能。本文在应用中对传统的双门限检测算法的基础上进行改进,作了延长可容忍静音的改进,有效的检测了多于一个字的孤立词语音信号的语音区间,为后续的识别打下了良好的基础。目前表征语音信号的特征参数主要有LPCC(线性预测倒谱系数)和MFCC(Mel频标倒谱参数)两种,由于MFCC充分模拟了人的听觉特性,具有较高的识别性能和抗噪能力,因为选择它作为识别参数。实际应用中采用了MFCC以及它的一阶差分系数。在语音识别算法中,DTW(动态时间弯曲)和HMM(隐马尔可夫模型)是主流技术,由于本文是小词汇量孤立词识别系统,所以采用DTW就能取得较好的效果。同时,针对DTW,本文从提高算法识别率和提高算法执行效率两个角度对DTW进行了改进,提出了松弛起点终点和改进局部判决函数的算法,节省了执行的时间和计算量,提高了效率。最后,在MATLAB的环境下,借助GUIDE这个良好的开发工具,以GUI的形式展现了整个识别系统中的相关过程,包括对实时语音的录入和回放、语音的实时端点检测及回放以及最后的基于DTW的识别结果的输出。整个系统中的相关过程以图形界面的方式清晰的展现在我们目前,达到视听的双重效果!
其他文献
高速线材轧机的轧辊孔型设计是线材生产规程中的主体环节,也是设计人员面临的难题。机组的孔型不仅要保证轧件的合理变形,还须满足各机架的金属秒流量相等和集体传动的主电机
《圣经》是人类历史上流传最为广泛的一部书籍。它的影响力远远超出了犹太教及基督教的范围之内。文学、艺术,尤其是西方文化都受到了《圣经》思想与基调及的熏陶。同样,圣经
探讨蒲公英甾醇对脂多糖(LPS)激活小鼠RAW264.7细胞分泌一氧化氮(NO)和前列腺素E2(PGE2)的影响。培养小鼠RAW264.7细胞,用MTT法测定不同浓度蒲公英甾醇对RAW264.7细胞的毒性
能源是国民经济的基础,支撑一个国家发展的动力离不开电力,当前发电主要以燃煤为主,普通煤粉炉的燃烧过程中,释放的SO2、NOX造成了自然环境严重的污染,作为一种新的环保型的
任何商业银行所面临的重要任务之一,就是确保流动性的充足,其对商业银行盈利性和安全性的实现起着不可忽视的作用。缺乏充足的流动性常常是一家银行处于财务困境的第一个信号
票据作为一种典型的有价证券在现代社会市场经济中发挥着巨大的作用。随着世界各国市场经济的不断向前发展,人们对各种交易的便捷性和安全性提出了更高的要求,而票据正是凭借
本文从大学图书馆的外包服务的研究为切入点,针对现在研究型大学图书馆的功能转变,来探讨外包服务对图书馆的支持作用。运用相关公共管理和外包服务等理论,希望得出一些有意
图像压缩编码研究和应用是目前信息技术中最为活跃的领域之一。随着计算机和因特网的普及,使得多媒体娱乐、多媒体通信、数字音频广播和高清晰度电视等各类实际应用对信息数
本文从力学性能试验的角度,研究了用于电弧喷涂方法快速经济制造具有优异使用性能的钢基模具涂层材料。根据钢基模具应具有较高的硬度、良好的耐磨性、较高的抗拉强度和冲击
本文以台州农村为例进行实证研究。从制度冲突视角出发,深入剖析农村信贷担保创新面临的发展障碍及成因,并提出相关的政策建议。