论文部分内容阅读
语音是人与人之间最为自然的交流方式,也是最有效人机交互方法之一。语音识别关键词检测技术是近年来语音识别领域的一个研究热点。
本文分析了关键词语音识别技术的发展历史和国内外的发展现状,介绍了关键词检测技术广泛的应用领域。本文研究的重点为具有说话人无关、针对连续语音流、大关键词表、任务无关等特点的关键词检测系统。
针对这一目标,本文提出了采用音节格识别+动态规划关键词搜索+置信度关键词确认的系统框架,设计了一个性别判决器,采用了性别相关语音识别模型,提高系统的性能。
本文在贝叶斯信息准则基础上提出了面向混合概率密度模型的改进贝叶斯信息准则(IBIC)来选择每个状态的高斯混合分量数。该方法可以更细致的优化语音识别声学模型的复杂度,提高模型区分能力。
在分析PC机硬件工作原理的基础上,本文提出了多帧缓冲同步搜索算法和马氏距离并行内积化的算法,并结合了并行指令集的应用。在对于识别率无损的情况下,将识别速度提高了3倍以上。
本文引入了基于帧归一化的后验概率密度模型作为置信度,分析了各种情况对置信度的影响,提出了采用等虚警归一化的方法对各个音节的帧平均后验概率进行补偿的方法;并提出了基于音节置信度的关键词动态规划检测算法。本文分析了语速的定义与语速对于识别性能的影响,提出了人工语速统计匹配计算方法,并采用基于语速估计的语速补偿算法,取得了较好的结果。
最终实验表明针对一个100个关键词的检测任务,系统的品质因数为92.9%。在虚警率为5FA/HR/KW的情况下,检测率为95.9%。