论文部分内容阅读
移动互联的快速发展带来最大的好处是信息交流的便捷,而随着信息交流的便捷产生了信息沟通方式的改变,信息交流从最初的文字图形等逐渐向语音视频等多媒体的形式多元化发展,因此,语音视频等多媒体中的音频关键信息识别技术显得尤为重要。本文在对汉语语音关键词识别技术的发展现状、主要技术和所面临的关键问题研究的基础上,针对有监督和无监督的两种识别算法分别进行了实现和性能对比分析,并提出了一种改进算法,保证识别率不变的同时有效的提高了识别效率。本文研究依托于相关科技研究项目中的社交系统模块,重点在于对汉语语音关键词识别算法的研究与实现,以及算法各环节所涉及到技术的对比分析及应用,主要研究工作包括:(1)对基于补白模型的有监督关键词识别算法进行了研究与实现,采用了半监督的模型训练方法,充分利用了未经标注的原始语音提高声学模型性能,对比分析了补白模型数量对于算法性能的影响,并通过训练具有抗噪性能的声学模型和CMS相结合的方法有效的改善了算法的抗噪性能。(2)针对有监督的识别算法不能解决少资源语言识别问题的缺点,对基于SLN-DTW的无监督关键词识别算法进行了研究与实现,对比了基础模板数量对于算法识别性能的影响,改进了模板融合方法,相比于传统得分融合的方式,降低了识别过程的时间开销,并对比分析了有监督和无监督算法的基础数据依赖性。(3)针对有监督和无监督识别算法均存在时间复杂度随语音长度线性增长的缺点,在无监督识别算法的基础上,从效率提升的角度,提出了一种基于语段特征和Syllable based-DTW的快速关键词识别算法,由更低维度的短时谱特征均值化后表示每个音素段构成语段特征,结合改进的Syllable based-DTW匹配方法实现关键词候选区域的快速提取,对关键词候选区域根据匹配得分建立优先队列后实现关键词识别。并采用多进程并发结合共享内存的结构实现了关键词识别系统自动化处理。通过多组实验对比证明了本文提出的改进算法能够在保证关键词识别性能的同时有效的减少识别时间,提高识别效率。