【摘 要】
:
自动情感识别技术在各种智能系统中的应用具有很大潜力,包括智慧教育、在线游戏、智慧医疗等。由于深度学习方法的出现,自动情感识别技术经历了由基于手工浅层特征的传统识别方法发展为基于深度神经网络算法,由基于单一模态的分类器发展为基于多模态聚合的情感识别的过程。其中最常使用的模态是通过视频数据获取的语音-视觉双模态,目前关于语音-视觉情感识别的大多数文献由于从这两个模态提取特征的方法和多模态聚合的方法存在
论文部分内容阅读
自动情感识别技术在各种智能系统中的应用具有很大潜力,包括智慧教育、在线游戏、智慧医疗等。由于深度学习方法的出现,自动情感识别技术经历了由基于手工浅层特征的传统识别方法发展为基于深度神经网络算法,由基于单一模态的分类器发展为基于多模态聚合的情感识别的过程。其中最常使用的模态是通过视频数据获取的语音-视觉双模态,目前关于语音-视觉情感识别的大多数文献由于从这两个模态提取特征的方法和多模态聚合的方法存在不足导致识别准确率较低。本文旨在于通过深度学习方法来缓解这两个问题,提出一种基于深度网络来提取特征和深层次模态聚合的视频情感识别系统。通过深度学习特征来弥合低层次手工特征与人类情感之间存在的鸿沟,通过深度网络提供的深层次多模态聚合方法来对具有不同统计属性的高度非线性相关关系的多个输入模态联合建模,论文的主要工作如下:针对语音模态情感识别的环境失配问题,本文提出了基于深度时空网络和多任务学习的两阶段语音情感识别方案,并仿真验证了所提方法的有效性。该方法通过基于长短期记忆网络的语音增强模块来降低环境噪声对语音情感特征的扭曲,提升了低信噪比条件下系统的鲁棒性。对增强后的语音信号提取MFCC特征谱,通过滑动窗口在MFCC谱上采样送入CNN-LSTM深度时空网络提取序列级特征表示用于情感分类。利用性别区分与情感识别任务之间的相关性,CNN-LSTM深度时空网络同时进行性别区分和情感识别的多任务学习,进一步提升了系统的性能。针对视频中的视觉模态特征提取不充分的问题,本文提出了基于多局部特征和深度神经网络的视频情感识别方案。除了卷积神经网络提取的图像特征表示,还使用了关注物体结构信息的HOG特征、关注动态几何信息的人脸关键点轨迹特征,并提出了基于人脸关键点定位的眨眼相关特征,包括眨眼频率、眨眼间隔及眼睛闭合时长相关的共七种特征统计值。相较于直接使用单一的图像的CNN特征,这样更充分的挖掘了视频序列中蕴含的视觉情感信息。针对人脸关键点轨迹特征本文提出了一种二维编码方案将其转换成类似图像的特征矩阵。网络结构方面,本文提出了基于Inception多尺度卷积核并行的深度网络结构,可以更好融合不同尺度的特征,有机结合全局的抽象特征和局部的细节特征,进一步提高了系统的识别率。针对语音和视觉模态的多种特征、分类器的聚合问题,利用深度网络对多种输入数据之间高度非线性相关关系的联合建模的能力,本文提出了基于深度置信网络的深层次聚合方案,相较于浅层聚合提升了多模态聚合的性能。本文讨论了六种决策层聚合策略,并设计了使用全连接网络和DBN网络作为聚合网络的两种深度网络特征层聚合方案。通过对八种聚合方法进行实验比较,深度聚合方法由于其对多个输入之间高度非线性相关关系的联合建模能力而取得了明显的性能优势,DBN网络由于其中RBM可以学习语音-视觉数据的联合概率分布的能力而取得了最好的聚合效果。综上所述,本文通过深度学习方法缓解了语音-视觉情感识别中的两个常见问题,提出了一种基于深度网络来提取特征和深层次模态聚合的视频情感识别系统,取得了较为满意的识别准确率。在本文的最后指出了上述算法的待改进之处,并列出了可供进一步拓展的方向。
其他文献
随着6GHz以下微波频段频谱资源的稀缺,将无线通信推向毫米波频段是一种趋势,从而有望实现Tbps的数据速率。目前,毫米波通信已经被广泛用于新一代宽带无线通信的研究与实践中,60GHz的免执照频段适用于室内短距离宽带通信。但是,高频段也带来了一个问题,即射频前端会产生更为严重的相位噪声,进而影响到通信系统中的载波同步。本文正是围绕相位噪声的估计算法展开研究。为了进行实际系统的搭建,在Matlab仿真
自主路径规划与跟踪是智能收获机的关键技术,直接影响收获机的自主作业精度。针对收获机自主路径规划有效性低、通用性弱,初始跟踪阶段收敛性较差的问题,围绕智能收获机的路径规划与跟踪方法开展研究,提出基于不规则形状农田的全覆盖路径规划方法与基于改进双切圆的混合路径跟踪方法。主要研究内容如下:(1)作业环境建模与转弯路径规划通过采集不规则四边形农田的边界点,构建自主作业区域的轮廓模型;以转弯次数少、转弯距离
在现代无线通信技术中,微波通信占有着十分重要的作用。原始数字基带信号通过发射机搬移至频率较高的微波频段进行传输,发射机的设计将对整个通信系统性能产生重要影响。常见的发射机结构包括超外差式结构和零中频结构,其中零中频结构具有集成度高、结构简单等优点,但该结构存在I/Q通道间幅度和相位不平衡问题,进而导致无用边带的产生,造成通信系统性能恶化。本论文设计了一个工作频率为950-2150MHz的中频发射机
保证通信系统可靠性的前提下,降低系统的体积和重量,提高其便携可用性是便携通信系统的主流发展趋势,也是国内外学者的研究热点。毫米波频段的元器件较小,有利于系统进行小型化的设计且毫米波通信的研究对于未来无线通信具有重要的研究意义,是无线移动通信重要发展方向之一。在此背景下,本文研究实现了工作在38-40GHz频段,用于点对多点通信的便携终端通信机。首先,分析对比各常用收发机结构,给出了其优缺点,确定系
随着无线通信技术的不断发展,高速增长的移动数据业务和海量的接入对新一代移动通信系统提出了高容量、低功耗、低延时等需求。为进一步提高系统容量,当前通信系统逐渐扩展天线阵列规模并采用波束赋形技术以获取更高的传输增益。然而,随着网络密集化部署,无线通信网络优化出现新的挑战。尤其针对多天线多小区通信系统,波束的密集分布导致波束碰撞发生,波束干扰增大,严重影响信号的有效传输,导致网络性能下降。波束碰撞主要指
随着信号处理技术的快速发展,频率估计在移动通信、电力监测等众多工程领域得到广泛应用,因此对淹没在噪声中的正弦信号进行频率估计具有重要意义。近年来,由快速傅里叶变换实现的离散傅里叶变换(Discrete Fourier Transform,DFT)被广泛应用于信号的频率估计中,然而DFT变换有许多的缺点和限制,比如频谱泄露与栅栏效应,DFT的频谱泄露又分为由正频率引起的短程谱泄露和由负频率引起的长程
随着无线通信技术的发展,为了提高频谱利用率和数据传输速率,调制信号的带宽正在变得越来越宽,而宽带调制信号通常具有高峰均比的特点,给传统功放的效率带来了挑战。包络追踪技术是提高功放效率的主流技术之一。包络追踪功率放大器由电源调制器和功放两部分组成,其中电源调制器的带宽是目前限制整个包络追踪功率放大器带宽的瓶颈。为了降低宽带场景对电源调制器的带宽需求,同时维持功放效率和线性度,本文创新性地提出了基于无
短期电力负荷预测是电力行业运行维护、规划调度的重要组成部分,为电网的安全稳定运行和用户的科学用电提供依据。针对短期电力负荷预测模型的预测准确度不足的问题,研究电力负荷自身特性、序列分解方法、模型集成方法,提出基于模态分解和集成学习的短期电力负荷预测模型,实现负荷的准确预测。论文的主要工作内容如下:(1)电力负荷特性分析与预测建模。研究电力负荷在不同的电力用户和用电条件下的特性,从用户用电行为、气候
导航贯穿于科学技术发展的始终,被广泛的运用于航海定向、无人机技术以及汽车驾驶等领域。单一的导航系统的局限性已难以满足军用以及民用领域对定位精度和实时性的需求,而组合导航技术很好的克服了单一系统的缺陷。GNSS(全球卫星导航系统)/SINS(捷联惯性导航系统)两者的组合较为常见,本文提出一种基于MEMS-IMU微惯性组合导航系统,将GNSS同MIMU进行组合,使用载波相位双差模型,通过旋转双天线基线