论文部分内容阅读
语音识别技术简单地说,就是让计算机能听懂人说话,将人说的话转换成计算机文本的一项技术。这将大大提高人们的效率,有着巨大的理论意义和实用价值。语音识别系统的关键在于如何定义声学模型和语言模型。声学模型的目标是提供一种有效的方法,计算语音的特征矢量序列和每个发音模板之间的距离。 虽然现在成熟的语音识别系统基本都是使用隐马尔可夫模型作为声学模型的,但是它有不可避免的缺陷,最重要的它需要假设观察序列的独立性。有人尝试利用多重马尔可夫,增加帧间相关性等技术来避免,但是效果并不明显。本文提出基于条件随机域模型的中文语音识别。条件随机域模型是一种基于统计的无向图判别式模型。它能很好的解决分段标注问题,近年来被广泛的应用到自然语言处理,生物等领域。条件随机域模型不需要观察序列独立性假设。它定义了给定观察序列,整个标注序列的联合概率分布,而不是为每一个状态都定义一个概率分布,能够很好的模拟语音识别的过程。而且识别时可以消除贝叶斯决策误差。 条件随机域模型作为一种统计和规则相结合的模型,允许特征非独立,允许定义各种不同形式的特征,然后选择有效的特征。在实验中定义了十种特征模板,每种特征模板按照特征产生的方式产生特征。在定义特征模板时考虑到特征数量的大小限制,长距离依赖的窗口大小不超过2。定义边特征时,只有相邻的顶点之间有边相连接,限制为线性条件随机域结构。通过不同类型特征的组合找到有效的适合语音识别的特征组合。条件随机域模型的训练是一项非常耗时的工作,需要迭代上百次才能达到收敛。每次迭代时都需要计算梯度,在没有惩罚项时,梯度的值为特征在经验分布下的期望与模型分布下的期望之差。本文分析了模型学习算法的复杂度并比较了几种学习算法的收敛速度。 条件随机域模型解码算法采用Viterbi算法,它可以搜索每个语音帧的最可能的标记,标记一般对应着相应的音节,把这些标记的序列转换成音节的序列,这样就达到了语音识别的目的。在系统中加入长距离依赖特征和与时间相关特征,系统识别率能达到68.22%。