语音情感的特征提取与识别

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:zgkl004
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音是人们相互交流的重要手段,含有非常丰富的情感语义内容,同时也是人机交互最为方便和直接的方式之一。语音信号中情感信息的识别不仅可以有效地改善人机交互能力,提高人机交互的亲切性和准确性,而且能够在语音层次上解决音视频低层特征与音视频语义内容之间的“语义鸿沟”问题,使得面向情感层的音视频检索成为可能。  在系统分析国内外相关研究成果的基础上,建立了电影语音剪辑情感数据库,为情感特征的分析和情感识别提供训练和测试样本。为了提取出能够反映人类情感的语音特征,根据人的发音机制以及听觉系统对情感信息感受的机理,通过大量实验系统分析了语音信号中的短时能量、过零率、基音频率、共振峰频率、Mel频率倒谱系数、250Hz以下能量比以及能量和基频抖动等特征在情感分类中的作用,从中筛选出最易于区分情感的特征,构建了两类情感特征向量,并使用主成分分析法对情感向量进行降维处理。设计并实现了一种基于人工神经网络的语音情感识别算法,利用WEKA机器学习工具,将其与现有的几种经典的识别和分类算法进行了对比实验,并对情感向量的有效性进行了测试。  实验结果表明,特征的选取对语音情感的识别率具有重要的影响,韵律特征和音质特征有助于提高语音情感的识别效果,经过扩充的32维的特征向量在识别效果上明显高于由目前被广泛使用的特征构成的21维的情感向量,人工神经网络模型通过进一步改进和完善可以很好地用于语音情感识别。
其他文献
如今“网络就是计算机”,企业的信息化也从原来的单机应用发展为现在的网络应用。随着信息化的发展企业或单位往往具有一套或几套不同的应用系统。如何将这些系统集成起来,综合
说话人识别,是指通过从说话人的语音波形中提取表征说话人的特征参数,从而达到自动识别说话人的身份,其核心技术是特征提取和模式匹配。说话人识别具有广阔的应用前景,比如身
股票市场是证券业和金融业的重要组成部分,受到投资者的普遍关注,它是一个高度复杂的非线性动态系统,其变化规律既有一定的趋势性,又受政治、经济、心理等诸多因素的影响。对于这
随着信息技术的高速发展,经济一体化和市场全球化步伐的不断迈进,围绕供应、生产、销售以及售后服务的各个企业形成了一个利益共同体,各个企业虽然在经营上互相独立,但它们在
全FLASH网站艺术表现形式丰富,具备传统HTML网站无法具备的视觉效果和表现能力,问世之后受到广泛的喜爱。但由于其发展时间短,尚未有具备密码加密功能的组件出现,开发者没有
随着移动通信网与互联网技术的迅猛发展,移动通信网与互联网之间的区别正在逐渐消失,这将导致一个融合了移动通信网与互联网的下一代移动网络的诞生。移动网络的一个最大特点
随着普适计算技术的发展,仅仅依赖室外定位技术已经不能完全满足位置感知技术的需要,因此室内定位技术便发展成为位置感知技术的重要组成部分之一。室内定位技术所使用的技术手
最大团问题是一个经典的图论问题,其目标是找出给定的某个图的最大完全子图。最大团问题从提出以来,许多学者都进行过大量的研究,并应用于模式识别、聚类分析、图着色、超大
图像匹配技术是图像信息处理领域的重要手段,涉及到工业检测、军事领域、遥感图像处理、数据融合、生物医学、智能交通等众多领域。图像匹配是将两幅待匹配图像在空间上进行
逻辑模拟是EDA软件的重要组成部分,是用来检验电路设计正确性的重要工具。随着数字电路规模的不断增加,逻辑模拟需要消耗越来越多的时间。逻辑模拟的高耗时性成为IC设计的一