论文部分内容阅读
语种识别是指利用计算机自动地判断给定的语音属于哪一个语种的过程。随着国际交流的日益频繁,语种识别在军事情报搜集、电话自动转接系统、多语种语音识别前端等方面显现出越来越重要的应用价值。
根据使用特征和建模方法的不同,主流的语种识别系统主要分为两大类:基于声学特征的方法和基于音素搭配关系的方法。其中,基于音素搭配的语种识别方法首先使用语音识别技术将语音转化为音素序列,然后利用不同语种音素搭配规律的不同进行语种识别。基于音素搭配的方法以其稳定、良好的性能和巨大的发展空间引起了越来越多的研究者的重视。本论文围绕基于音素搭配的语种识别方法进行了较系统的研究,完整地搭建了从音素识别器到语种模型的语种识别系统,并在提高系统性能、降低算法复杂度方面取得了一定的进展。具体的研究工作包括:
第一,比较了相同条件下用不同方法训练的音素识别器的性能,证明了TRAP-MLP策略训练的音素识别器在语种识别任务上相对于传统语音识别中采用的GMM-HMM策略的优越性。
第二,针对Lattice在语种识别中应用算法复杂度极高的问题,在证明遍历Lattice中全部路径等效于遍历全部相邻边的基础上,提出了一种计算有限阶次的N-Gram统计量的快速算法,极大地降低了算法复杂度。
第三,在统计语言模型方面:a),针对N-Gram语言模型在语种识别中的应用特点,提出了在语种识别中应用不同顺序的N-Gram语言模型的方法,利用它们之间的互补性改进了性能;b),利用从UBM自适应到N-Gram语言模型的训练方法,进一步缓解了数据稀疏问题;c),比较了N-Gram语言模型和二叉决策树模型的性能。
最后,在PR-SVM体系中:a),因为特征维数随阶次指数增长,产生了特征向量稀疏和参数估计不准确的问题,为此本论文提出了Back-Off平滑和UBM自适应两种SVM特征参数估计的改进方法,缓解了稀疏问题,这两种方法的融合还能进一步提升系统性能;b),特征维数过高导致的另一个问题是存储和计算困难,简单地剪枝方法又会造成信息的丢失,本文提出了一种利用二叉决策树产生的聚类信息来构造PR-SVM特征向量的方法,该方法不仅有效地降低了维数,而且没有简单地丢弃信息,语种性能相对于简单剪枝方法有相当程度的提升。