基于广义主角和时空域信息的视频情感内容分析方法研究

来源 :深圳大学 | 被引量 : 0次 | 上传用户:zhui130
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着智能时代的到来,情感识别任务成为众多学者研究的热点问题之一。研究情感识别不仅能够优化人机交互的体验,而且在个性化推荐、健康监督、交互式游戏等等方面具有广泛的应用前景。视频作为一种被广泛利用的信息载体,包含了大量的情感信息。这使得学者们对视频中的情感识别问题产生了浓厚的兴趣。摄像头和移动设备的普及带来了视频数据量的急剧增长。早期靠人工手动标注视频的情感内容的方式已经远远不能适应视频数据增长的速度,因此,自动地识别视频的情感内容变成了一种迫切的需求。如何从多模态视频中的音频模态和视觉模态提取更具表征力的特征来表达视频的情感内容是视频情感内容分析任务中的一大难点。针对这个难点,本文提出了两种视频情感分析方法。(1)本文基于手工特征和深度学习,提出了基于广义主角的视频情感内容分析方法。通过观察发现,视频中不同角色在视频中起到的作用不同,其中主要的角色对视频的情感表达起了更为重要的作用。与大多数学者将所有人脸不分主次全部考虑的做法不同,在众多的角色中根据一定的标准,本方法挑选出在视频表达情感中起重要作用的角色,并将这样的角色命名为广义主角。在众多的视频帧中,基于广义主角来提取其中的关键帧并获得对应的光流图像,然后通过卷积神经网络对包含广义主角的关键帧和光流图像,在空域和时域上分别提取特征。与此同时,提取视频中常用的过零率、梅尔倒谱系数、颜色等手工音频视觉特征作为补充。最后将该网络分别提取出的空域和时域特征,联合以上手工特征进行视频情感的映射,从而分析出视频包含的情感信息。实验表明,与相关研究工作的结果对比,本方法能够得到更好的识别效果。(2)另外,本文运用深度学习,建立了一个基于时空域信息的多模态混合神经网络框架来识别视频中的情感内容。该框架包括两个模态,一个是视觉模态,一个是音频模态。对于视觉模态采用了R2plus1d网络来提取视频的时空域信息,从而分析视频的情感内容。对于音频模态,利用一维音频信号转成的二维对数梅尔频谱图作为输入,然后送入Visual Geometry Group(VGG)网络中进行带有时空域信息的特征提取。最后将两个模态的特征通过深度信念网络(DBN)进行特征融合,从而对视频中的情感进行映射。实验表明,本方法提出的框架能够有效地提取出视频当中的音频视觉时空域信息,在视频情感内容识别任务中表现出良好的性能。
其他文献
目的:缺血性脑卒中(cerebral ischemic stroke,CIS)具有高患病率、高复发率、高致残率和致死率的特点。丹参酮ⅡA磺酸钠是丹参脂溶性成分丹参酮ⅡA经磺化后的水溶性物质,治疗
Nur77(也叫TR3和NGFIB)是核受体超家族的重要成员的之一,在调控肿瘤细胞的生存与凋亡中起着双重作用,是抗肿瘤药物开发的重要靶点。Bcl-2家族蛋白成员在肿瘤的发生、转移和耐
随着我国人民消费水平的提高,邮轮旅游作为一种新兴旅游方式得到了迅速发展,对我国旅游经济的发展和海上运输业的发展起着重要的推动作用。但随着邮轮旅游市场的不断扩大,邮
研究背景卵巢癌是一个由不同临床病理和分子特征的异质性卵巢肿瘤组成的集合。在全球范围内,卵巢癌都是最致命的妇科恶性肿瘤。尽管有不少研究者对新型化学疗法、靶向疗法和
伴随着大数据时代的到来,数据量正呈现指数级增长,与此同时所带来的在数据分析和挖掘等方面的需求也不断激增,而聚类分析作为数据挖掘的重要工具,其研究热度一直很高,但是每
目的:研究表明过长或过短的睡眠时长均会引起全因死亡风险的增加。但行为危险因素和健康状况是否影响以及如何影响睡眠时长与全因死亡的关系,睡眠时长如何促进全因死亡风险的
声子晶体,基于其展现出的超常弹性波操控性能和丰富的动力学行为,正在基础物理研究与工程应用探索等方向蓬勃发展。例如,声子晶体所具有的弹性波带隙、局域缺陷态与负折射率
无论是要解决器件散热问题,还是要更好地设计热功能材料,都需要对纳米尺度导热规律有更深入的了解。纳米结构特征尺寸与平均自由程相当,此时傅里叶导热定律不再适用,热量以弹
高精度室内定位是众多领域的共性研究问题。本文将室内定位从实现机制上分为主动式与被动式定位,针对主被动定位各自的优缺点,本文拟选择智能手机惯性数据与普通单目监控视频
合约是双方合意的表示,能够促进合作剩余的产生,而合约形式选择能够对合作剩余的分配、双方预期与权益保障产生深刻影响。随着土地流转规模日益扩大,加强农户的土地流转合约