论文部分内容阅读
将语音处理技术在计算机辅助语言学习领域的运用近年来越来越广泛。它为非母语的学习者提供了一个可交互辅助学习的平台。本文旨在开发一个客观的英语重音识别系统,来帮助英语学习者提高对英语口语句重读节奏的把握,并为此引入了一个基于RankNet的多层次英语口语重读识别方法。本文提出的所要解决的多层次的重音识别系统分为三层。第一层是词汇级别的重读音节的识别,以口语语料句子中的独立词为语料,不考虑整个句子的重读词以及重读与非重读词之间的关系,识别每个单词的重读核(核:一个音节的元音音素)。第二层是整个句子的重读识别。以第一层输出的词重读核为基础,提取出句子中所有词的重读核,作为第二层的原始预料,以完成句子的韵律重读识别。第三层是通过获取通过RankNet的输出的排序值中区分重读与非重读的阀值,进一步改进识别的结果。本文的主要内容如下:首先,我们在本实验室已有的基于RankNet的词语重读音节识别方法基础上,引入了特征的局部归一化,以提高RankNet的识别精度。其次,我们将RankNet进一步应用到句子的韵律重读识别中。根据RankNet方法,选取基于非特定人的节律特征、元音音素质量来将其分类为重读与非重读,并根据语句级的韵律重读识别的结果,进一步通过阀值来提高准确率。最后,为了对上述三个层次、重读识别算法进行更加客观的评价,我们引入了ISLE(Interactive Spoken Language Education)语料库,并在此基础上实现了经典的线性判别识别方法,将这种方法与本文所提出的方法进行了实验对比,并进一步通过实验对包括非线性特征在内的8维重音识别特征向量的判别能力进行了实验评测。实验结果显示,在ISLE语料库上,应用本实验提出的多层次的重音识别在开放集上所有句子所有词重读错误率最低为22.9%,句子第一重读识别的错误率(基数为句子总数)最低为43.5%。通过与线性判别方法的比较,本文提出的方法获得了更高的准确率。