基于RankNet的多层次英语口语重读识别方法

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:zhoulijun
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
将语音处理技术在计算机辅助语言学习领域的运用近年来越来越广泛。它为非母语的学习者提供了一个可交互辅助学习的平台。本文旨在开发一个客观的英语重音识别系统,来帮助英语学习者提高对英语口语句重读节奏的把握,并为此引入了一个基于RankNet的多层次英语口语重读识别方法。本文提出的所要解决的多层次的重音识别系统分为三层。第一层是词汇级别的重读音节的识别,以口语语料句子中的独立词为语料,不考虑整个句子的重读词以及重读与非重读词之间的关系,识别每个单词的重读核(核:一个音节的元音音素)。第二层是整个句子的重读识别。以第一层输出的词重读核为基础,提取出句子中所有词的重读核,作为第二层的原始预料,以完成句子的韵律重读识别。第三层是通过获取通过RankNet的输出的排序值中区分重读与非重读的阀值,进一步改进识别的结果。本文的主要内容如下:首先,我们在本实验室已有的基于RankNet的词语重读音节识别方法基础上,引入了特征的局部归一化,以提高RankNet的识别精度。其次,我们将RankNet进一步应用到句子的韵律重读识别中。根据RankNet方法,选取基于非特定人的节律特征、元音音素质量来将其分类为重读与非重读,并根据语句级的韵律重读识别的结果,进一步通过阀值来提高准确率。最后,为了对上述三个层次、重读识别算法进行更加客观的评价,我们引入了ISLE(Interactive Spoken Language Education)语料库,并在此基础上实现了经典的线性判别识别方法,将这种方法与本文所提出的方法进行了实验对比,并进一步通过实验对包括非线性特征在内的8维重音识别特征向量的判别能力进行了实验评测。实验结果显示,在ISLE语料库上,应用本实验提出的多层次的重音识别在开放集上所有句子所有词重读错误率最低为22.9%,句子第一重读识别的错误率(基数为句子总数)最低为43.5%。通过与线性判别方法的比较,本文提出的方法获得了更高的准确率。
其他文献
IEEE 802.16e是宽带无线接入协议,802.16e中的QoS支持主要体现在物理层、数据链路层;IEEE 802.16e的MAC层对QoS服务流和参数配置了完整的信令体系、基于QoS的调度服务类别和
群体智能是指任何启发于群居性昆虫群体和其他动物群体的集体行为而设计的算法和分布式问题解决装置。群体智能具有分布性、鲁棒性、非直接通信和简单性等特点,在解决组合优
异构平台系统虚拟机技术是解决“ISA壁垒”问题的重要手段,对于促进体系结构创新和新兴处理器的推广具有重要意义。受ISA间差异影响,异构平台系统虚拟机在运行时存在较大的性能
互联网与计算机已经成为当前人们工作和生活中不可或缺的一部分,但是,在人们享受信息技术带来的便利的同时,也不得不承受计算机病毒、蠕虫等恶意代码对信息安全和个人隐私带来的
随着计算机的普及,网络的飞速发展,秘密信息和隐私的保护也越来越重要,但是当前网络中的用户秘密,隐私泄露的问题十分严重。身份认证技术是信息安全的一个重要机制,通信的双
VoIP(Voice Over Internet Protocol)是Internet应用领域的一项热门技术。VoIP具有低成本,开放性,灵活性等诸多优点,给人们的生活带来的很大的便利,同时也带来了网络犯罪等安
多媒体卫星通信网络是一个把空间和地面宽带通信融合于一体的天地一体化通信网络。卫星通信采用星上处理和交换技术,把通信路由功能从地面设备转移到空间卫星上,从而使卫星系
不确定性人工智能是当前人工智能中的研究热点和重大的前沿课题。模糊神经网络是不确定性知识环境下构建非线性系统的重要工具。本文针对模糊联想记忆网络和模糊霍普菲尔德网
在社会逐渐步入信息化,信息化技术、信息化设备日渐普及的今天,网络给人们的生活带来了巨大的变化,人们对网络的依赖也愈发严重。在使人们生活、工作更加方便的同时,网络也对人们
本文针对K-means算法容易出现局部最优的缺点,引入了一种改进的种群分类蚁群算法ICACA(Improved Character-base Ant Colony Algorithm)对其进行优化。蚁群算法采用了正反馈