基于网页语料构建面向语音识别的动态更新式语言模型

来源 :云南大学 | 被引量 : 0次 | 上传用户:tyybj2008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在语音识别系统中,语言模型是不可或缺的,以先验概率的形式发挥重要作用,在大词汇量非特定人的连续语音识别中,又以基于统计的语言模型应用最为广泛。N元文法语言模型作为统计语言处理的主流技术已被广泛应用于语音识别中。 传统的N元文法语言模型只对有限题材的训练语料做统计,对相应题材的应用领域来说,可以得到很好的效果,但是,对于其他题材的应用领域来说,模型的性能就会大幅下降;此外,传统的语言模型一旦训练好以后,就不再更改,但是实际语言现象却在不断的更新当中,语言模型并不能很好地模型化发展中的实际语言现象。 随着Internet及其技术的迅速发展,Web已经成为当今最庞大的信息库,Web网页中包括了各种题材的信息,并且涵盖了各种最新的语言现象,为语料准备提供了最多样化的资源。为此,本文提出了一种从Web中提取语义完整中文信息的算法,该算法可以从HTML文档中提取语义完整的中文句子,以用作训练语言模型的训练语料;接着设计了一个针对中文句子的分词及字音转换系统,用于将以上训练语料分词并转换为汉语拼音语料;最后又设计了一个针对汉语拼音语料的词典生成系统,使用该系统可从拼音训练语料中获得语言模型的词典。实验结果表明,该系统可有效地收集Web网页中的中文语义完整句子,并对其进行处理,获得题材广泛的语言模型训练语料。随后,本文采用从Web网页上获得的训练语料,动态地更新基本语言模型,使语言模型可以与最新的语言现象保持同步。 本文针对互联网上的新闻、科技、军事、体育、财经、小说等题材的语料使用HLM(HTK的语言模型工具)构建了五个面向语音识别的N-gram语言模型,然后使用HLM的测试工具测试语言模型的困惑度。实验结果表明,词语言模型与词类语言模型的联合测试结果的性能要高于二者单独测试的性能,而在原trigram语言模型基础上添加部分训练语料生成的动态更新式语言模型的性能也要高于原模型的性能。
其他文献
数字集群通信系统主要用来进行集团调度指挥通信,主要应用在专业移动通信领域比如公安部门、铁路部门、水利部门等,具有资源共享、费用分摊、共用设备等多种优点,是多用途、高效
正交频分复用(Orthogonal Frequency Division Multiplexing,OFDM)因其频谱利用率高和抗多径时延能力强的优点而适用于未来高速宽带无线通信的需要。但在高速移动环境中,无线信
在VoIP系统中语音处理子系统是一个很重要部分,该子系统具有语音压缩与编解码、DTMF(双音多频)处理、回声消除等功能。先进的数字信号处理器(DigitalSignalProcessor,DSP)执行
随着计算机处理能力的迅速提高,计算机视觉在各个邻域的应用也越来越广泛。复杂背景下的前景分割作为计算机视觉中的一个重要组成部分,也随之成为了研究人员的重要研究课题。而
从杭州市郊采集若干株叶片有黄边的一品红萝卜植株,利用抽提dsRNA的方法从叶片中获得4条大小在1400-2000bp范围的dsRNA条带。从叶片中提取病毒粒子,在电镜下观察到一种直径在
帕金森病是一种常见的神经退行性疾病,在老年人群中发病率极高,是影响老年人生活质量的第二大神经退行性疾病。其主要的病理特征是中脑黑质致密部多巴胺能神经元进行性死亡,
本文所研究的基于TD-SCDMA的数字集群系统目前还处于研究和方案制订阶段中,是属于3G移动通信的专业数字集群系统。它结合蜂窝技术,通过对TD-SCDMA技术的优化与融合,提供专业用户
八角莲Dysosma versipellis(Hance)M.Cheng,隶属小檗科(Berberidaceae),药名鬼臼,为我国特有的濒危药用植物,其有效成分鬼臼毒素具有很强的抗肿瘤活性。而含鬼臼毒素的野生植
视频通信以其直观生动等特点在多媒体通信中占有非常重要的地位,而随着多媒体技术的发展,视频压缩编码技术日益成为计算机通信领域中倍受关注的问题。压缩效率是在码率、图像质
本文通过对荣华二采区10
期刊