论文部分内容阅读
在语音识别系统中,语言模型是不可或缺的,以先验概率的形式发挥重要作用,在大词汇量非特定人的连续语音识别中,又以基于统计的语言模型应用最为广泛。N元文法语言模型作为统计语言处理的主流技术已被广泛应用于语音识别中。
传统的N元文法语言模型只对有限题材的训练语料做统计,对相应题材的应用领域来说,可以得到很好的效果,但是,对于其他题材的应用领域来说,模型的性能就会大幅下降;此外,传统的语言模型一旦训练好以后,就不再更改,但是实际语言现象却在不断的更新当中,语言模型并不能很好地模型化发展中的实际语言现象。
随着Internet及其技术的迅速发展,Web已经成为当今最庞大的信息库,Web网页中包括了各种题材的信息,并且涵盖了各种最新的语言现象,为语料准备提供了最多样化的资源。为此,本文提出了一种从Web中提取语义完整中文信息的算法,该算法可以从HTML文档中提取语义完整的中文句子,以用作训练语言模型的训练语料;接着设计了一个针对中文句子的分词及字音转换系统,用于将以上训练语料分词并转换为汉语拼音语料;最后又设计了一个针对汉语拼音语料的词典生成系统,使用该系统可从拼音训练语料中获得语言模型的词典。实验结果表明,该系统可有效地收集Web网页中的中文语义完整句子,并对其进行处理,获得题材广泛的语言模型训练语料。随后,本文采用从Web网页上获得的训练语料,动态地更新基本语言模型,使语言模型可以与最新的语言现象保持同步。
本文针对互联网上的新闻、科技、军事、体育、财经、小说等题材的语料使用HLM(HTK的语言模型工具)构建了五个面向语音识别的N-gram语言模型,然后使用HLM的测试工具测试语言模型的困惑度。实验结果表明,词语言模型与词类语言模型的联合测试结果的性能要高于二者单独测试的性能,而在原trigram语言模型基础上添加部分训练语料生成的动态更新式语言模型的性能也要高于原模型的性能。