基于音素搭配的语种识别方法研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:jinnsey
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语种识别是指利用计算机自动地判断给定的语音属于哪一个语种的过程。随着国际交流的日益频繁,语种识别在军事情报搜集、电话自动转接系统、多语种语音识别前端等方面显现出越来越重要的应用价值。 根据使用特征和建模方法的不同,主流的语种识别系统主要分为两大类:基于声学特征的方法和基于音素搭配关系的方法。其中,基于音素搭配的语种识别方法首先使用语音识别技术将语音转化为音素序列,然后利用不同语种音素搭配规律的不同进行语种识别。基于音素搭配的方法以其稳定、良好的性能和巨大的发展空间引起了越来越多的研究者的重视。本论文围绕基于音素搭配的语种识别方法进行了较系统的研究,完整地搭建了从音素识别器到语种模型的语种识别系统,并在提高系统性能、降低算法复杂度方面取得了一定的进展。具体的研究工作包括: 第一,比较了相同条件下用不同方法训练的音素识别器的性能,证明了TRAP-MLP策略训练的音素识别器在语种识别任务上相对于传统语音识别中采用的GMM-HMM策略的优越性。 第二,针对Lattice在语种识别中应用算法复杂度极高的问题,在证明遍历Lattice中全部路径等效于遍历全部相邻边的基础上,提出了一种计算有限阶次的N-Gram统计量的快速算法,极大地降低了算法复杂度。 第三,在统计语言模型方面:a),针对N-Gram语言模型在语种识别中的应用特点,提出了在语种识别中应用不同顺序的N-Gram语言模型的方法,利用它们之间的互补性改进了性能;b),利用从UBM自适应到N-Gram语言模型的训练方法,进一步缓解了数据稀疏问题;c),比较了N-Gram语言模型和二叉决策树模型的性能。 最后,在PR-SVM体系中:a),因为特征维数随阶次指数增长,产生了特征向量稀疏和参数估计不准确的问题,为此本论文提出了Back-Off平滑和UBM自适应两种SVM特征参数估计的改进方法,缓解了稀疏问题,这两种方法的融合还能进一步提升系统性能;b),特征维数过高导致的另一个问题是存储和计算困难,简单地剪枝方法又会造成信息的丢失,本文提出了一种利用二叉决策树产生的聚类信息来构造PR-SVM特征向量的方法,该方法不仅有效地降低了维数,而且没有简单地丢弃信息,语种性能相对于简单剪枝方法有相当程度的提升。
其他文献
网络管理系统的直观性以及处理速度的实时性是人们关心的主要问题,NetFlow技术的提出使得基于“流”的网管系统的实施更加便利。随着一系列知名厂商对NetFlow技术的支持,如何
本文研究内容源自科研课题“短波选频与建链系统技术研究”。本文将从短波选频与建链系统的方案需求出发,设计并实现了短波通信控制板的基本软件模块及单板测试方案。作者完
本文的研究内容源于科研课题“短波多信道通信控制系统”。基于以往的短波通信研究经验和技术,课题组开展了在短波多信道接收条件下的选频建链通信系统的研究。本文主要研究
随着互联网信息技术的迅猛发展,计算机应用系统的日益广泛和深入,对网络信息系统的各种恶意攻击手段也在不断发展。回顾微软“XP黑屏”、伊朗“震网”病毒、美国“棱镜门”等事
在航空电子网络中,对通信速率和网络容量的要求很高,传统的总线技术和电交换技术,已经逐渐不能满足这种需求。基于波分复用技术(WDM)的光交换网络具有大容量、高速率、强实时性、
自从Differ-Hellman双方密钥交换协议提出至今,密钥交换协议已经有了飞速的发展,并已在计算机互联网通信等方面有着较多的应用,在密码学领域占有重要的地位。双线性映射的提出使
未来宽带无线通信系统需要使用先进技术来有效地处理时间离散移动无线环境的影响。Turbo原理的应用可以对并行或串行级联纠错码进行迭代译码,从而使得性能逼近Shannon信道容