论文部分内容阅读
语言是人类之间交流的最重要的工具,因此人们一直希望能不用键盘,不用手写,来操作计算机、手机、学习机、车载导航、以及智能玩具等各类信息终端产品,使它们都具备“能听会说”语音识别的功能,只用说话就可以进行网络搜索、发短信、发微博、玩游戏以及机械操作。因此,对语音识别技术的研究具有重要的理论价值和实际意义。
本论文首先介绍了语音识别的基本知识,即语音识别的原理;语音信号处理的基本知识;各种语音识别和训练的方法。在此基础上本论文所做的主要工作是:
第一,详细分析了现阶段的各种端点检测算法,发现在信噪比较高时检测性能都较好,但在低信噪比下,这些算法存在了性能明显下降和运算时间过长的问题,对后续的识别产生了直接不利的影响。因此,在前人研究的基础上,本论文提出了一种新的端点检测算法基于模糊理论的端点检测算法,主要是针对在低信噪比的高斯白噪声背景噪声环境下的双字语音识别。
首先提取语音信号的时域特征值短时能量和短时平均过零率,从而计算出短时能量变化率和短时平均过零率变化率,然后通过模糊统计实验法构造其隶属函数,最后通过比较隶属度的大小来判定语音端点所存在的区域。
针对所提出的端点检测算法,本论文通过仿真实验对其性能做了比较和分析。验证了此方法的可行性和适用性。
第二,通过对目前语音识别技术的分析,讨论所存在的问题,从而确定了本论文的研究方向。提出利用LVQ神经网络进行语音识别,并分析讨论了在语音识别研究中LVQ神经网络的设计原则,以及在识别中LVQ神经网络所存在的对初始权值敏感的问题,从而对LVO神经网络做了进一步的改进,在网络的初始权值的设置上采用遗传算法,达到了解决对初值敏感的问题,研究构造了相应的语音识别模型与算法,并完成了实验软件平台的设计与开发。
通过仿真计算,比较了相应算法的识别性能及应用特点,分析结果表明,将LVQ神经网络应用于语音识别领域,取得了较好的识别效果。同时也表明了神经网络在语音识别中的优势。