基于条件随机域模型的中文语音识别研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:goove8
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音识别技术简单地说,就是让计算机能听懂人说话,将人说的话转换成计算机文本的一项技术。这将大大提高人们的效率,有着巨大的理论意义和实用价值。语音识别系统的关键在于如何定义声学模型和语言模型。声学模型的目标是提供一种有效的方法,计算语音的特征矢量序列和每个发音模板之间的距离。  虽然现在成熟的语音识别系统基本都是使用隐马尔可夫模型作为声学模型的,但是它有不可避免的缺陷,最重要的它需要假设观察序列的独立性。有人尝试利用多重马尔可夫,增加帧间相关性等技术来避免,但是效果并不明显。本文提出基于条件随机域模型的中文语音识别。条件随机域模型是一种基于统计的无向图判别式模型。它能很好的解决分段标注问题,近年来被广泛的应用到自然语言处理,生物等领域。条件随机域模型不需要观察序列独立性假设。它定义了给定观察序列,整个标注序列的联合概率分布,而不是为每一个状态都定义一个概率分布,能够很好的模拟语音识别的过程。而且识别时可以消除贝叶斯决策误差。  条件随机域模型作为一种统计和规则相结合的模型,允许特征非独立,允许定义各种不同形式的特征,然后选择有效的特征。在实验中定义了十种特征模板,每种特征模板按照特征产生的方式产生特征。在定义特征模板时考虑到特征数量的大小限制,长距离依赖的窗口大小不超过2。定义边特征时,只有相邻的顶点之间有边相连接,限制为线性条件随机域结构。通过不同类型特征的组合找到有效的适合语音识别的特征组合。条件随机域模型的训练是一项非常耗时的工作,需要迭代上百次才能达到收敛。每次迭代时都需要计算梯度,在没有惩罚项时,梯度的值为特征在经验分布下的期望与模型分布下的期望之差。本文分析了模型学习算法的复杂度并比较了几种学习算法的收敛速度。  条件随机域模型解码算法采用Viterbi算法,它可以搜索每个语音帧的最可能的标记,标记一般对应着相应的音节,把这些标记的序列转换成音节的序列,这样就达到了语音识别的目的。在系统中加入长距离依赖特征和与时间相关特征,系统识别率能达到68.22%。
其他文献
我国证券市场已走过了十几年的历程,虽然起步较晚,但在证券信息计算机处理方面起点很高、发展迅猛。随着近年来网络技术的飞速发展和用户操作水平的提高,证券公司证券交易、网络
随着计算机、通讯技术的不断发展,人们越来越迫切希望可以在任何时候、任何地点、与任何机器都可以自然交流,而语音通信则是一种最理想的人机通信方式,语音识别技术由此诞生
音字转换技术是建立在语言学、计算机科学、数学、信息论、人工智能等多个学科基础之上的一项综合研究,一直以来就是中文信息处理的研究热点,其最重要的应用之一就是中文拼音
随着互联网技术的飞速发展,网络为我们提供了多元化的海量信息,越来越多的人开始使用搜索引擎来获取所需要的信息。然而,虽然搜索引擎发展迅速,但其效果远未达到令人满意的程
对患者进行治疗是一个比较模糊的过程,它通常无法用一些准确的词语或数字来描述,这也是人们在看病时倾向于找有经验的医生的原因。然而由于治疗过程中病人的各项体征异常程度是
作业车间调度问题是制造系统设计中的一个重要问题。作业车间调度系统中,包括一个n个作业的工件集合和一个m台机器的设备集,其中每个工件包含一系列的操作,同时每个机器某一
船体下料是船体设计制造过程的最初环节,直接影响船体制造的钢材利用率,关系着造船企业的经济效益。本文以某船厂的船体型材零件自动设计为实际应用背景,通过型材下料图形系
随着XML的广泛应用,XML数据量呈指数级增长,如何高效地管理这些数据成为当前急需解决的问题。目前已有一些方法,如利用文件系统或传统的关系数据库系统来存储和管理这些数据
字符识别结果的可信度测定技术是基于模式识别系统的研究,能够比较准确地估计字符分类结果准确性的技术。课题研究的银行票据OCR(opticalCharacter Recognition)系统是一种专
计算机网络教学在高等院校的计算机教学中占有重要地位,如何进一步提高计算机网络课程的教学质量是高校教学改革所面临的问题之一。目前不少高校计算机网络课程的教学都主要