论文部分内容阅读
随着计算机技术的发展,计算机辅助学习(CALL, Computer Assisted Language Learning)系统日趋智能化。CALL系统能准确、客观即时的反馈考生发音情况,极大的促进了考生学习效率和教师阅卷的客观程度。目前CALL系统的口语评测均是依赖文本(text-dependent)的评测(如朗读),且技术日趋成熟。例如在中文普通话水平考试(PSC, Putonghua Shuiping Ceshi)前三题(单字朗读、单词朗读、短文朗读)上,计算机评分性能甚至超过了从事多年评分工作的专业评分员的评分性能。背诵和复述是重要的英语学习方法,能比朗读更好的反映发音人的英语口语水平和表达能力。对于背诵题而言,虽然考生必须按照所给文本进行背诵,但由于看不见原文,导致实际发音和文本存在较大的不一致,且许多考生不能完成背诵,因此,可以看成是介于朗读题和复述题之间的一种题型;对于复述题而言,该题型是文本无关(text-independent)的,考生可以完全用自己的语言对文本进行描述。目前的CALL系统并不能对这种不严格依赖文本的题型进行较好的评测,从而极大的限制了CALL系统全面的推广和使用。因此,本文在朗读题评分系统的工作上,将工作向文本无关的方向进行延伸。在背诵题方面,抓住背诵的特点,采用句子并联网络,对考生的语料进行识别和处理。这样既避免了引入更多的混淆,又能应对说话人漏背、重复及未背完的情况,取得了专家性能的90%,达到实用水平。在复述题任务上,结合了语音识别、自然语言处理等技术,并根据复述题特点进行了一系列的改进,取得了专家评分性能的84%,超过了教师在高强度下批量阅卷的评分性能,能辅助老师进行更科学客观的评分。本文的实验结果证实了文本无关评分的可行性,为以后深入的研究奠定了基础。文章结构如下:第一章简单介绍了语音评测的发展背景与现状,重点阐述了语音评测的原理、系统构成、以及所依靠的语音识别技术基础。第二章主要介绍语音评测系统具体实现的方法、流程,并作相应的分析。第三章对背诵题题型的评测进行研究,根据其题型特点,主要提出了较朗读题稍灵活、但限制性很强的“句子并联”型识别网络,取得了较好的效果。第四章首先搭建了复述题评分流程。并针对复述题无需按原文复述、考试现场录音质量低等难点,通过借助朗读题数据的声学模型自适应处理、基于复述原文的通用语言模型裁剪、基于识别输出词图的评分特征提取等方法,改进了系统评分性能。最后将对全文进行总结,并指出将来的可能的改进方法。