利用脑功能响应特征的视音频分析方法研究

来源 :西北工业大学 | 被引量 : 0次 | 上传用户:yangjianguo20
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着视音频数据的爆炸式增长,准确的视音频检索、分类等分析方法成为人们研究的热点。目前视音频分析方法大都基于颜色、纹理、梅尔频率倒谱系数等计算机底层视听觉特征,这些底层特征在视音频分类、检索中的准确率还有待于进一步提高。本文提出一种新颖的脑功能响应(Brain functional response,BFR)特征,并利用该特征进行视音频分析,提高了现有视音频分析的准确率。主要工作包括:  首先,提出了一种基于大脑功能响应信息的视频检索方法。首先,随机选取少量视频作为训练样本让被试(测试者)观看,同时利用功能磁共振成像技术(Functional magnetic resonance imaging,fMRI)采集被试大脑感兴趣区域(Regions of the interests,ROIs)的响应信号。其次,利用功能连接矩阵来度量每两个ROIs之间的功能连接,功能连接矩阵可以表征大脑对视频刺激的理解并作为初始的BFR特征。第三,由于功能连接矩阵中存在着冗余和无效信息,我们利用特征选择方法对其进行特征选择,选取其中最具分辨能力的元素作为BFR特征。第四,由于fMRI采集成本较高,对所有视频进行fMRI扫描不具有可行性,但是我们却拥有大量廉价的底层视觉特征,所以本文利用双高斯过程回归算法对训练样本的BFR特征和底层视觉特征进行训练,然后利用训练好的回归模型将测试视频的底层视觉特征映射到BFR特征空间,得到测试视频的BFR特征。最后,利用流形排序方法在BFR特征空间上进行视频检索。视频数据来自TRECVID2005数据库,实验结果表明本文方法得到的视频检索准确率高于底层特征的检索准确率。  其次,提出了一种融合底层视听觉特征和BFR特征的视频聚类方法。随着对BFR特征和底层特征的深入研究,我们发现虽然整体上 BFR特征具有较高的视频分析准确率,但是两者之间也具有互补性,即有些视频在BFR特征空间具有较高的区分能力,有些却在底层视听觉特征空间中具有优势,因此,我们利用多模态谱聚类算法对回归模型预测得到的BFR特征和底层特征进行融合聚类,得到比单独使用BFR特征或底层视听觉特征更高的视频聚类准确率。另外,我们采用基于小波变换一致性的功能连接矩阵来度量ROIs之间的交互,实验证明可以得到更优的BFR特征。  再次,提出了一种基于自然刺激fMRI的音频分类方法。首先,选取少量音频作为训练样本,从被试聆听训练样本时采集的大脑fMRI信号中获取BFR特征。其次,提出了一种基于自训练的双高斯过程回归算法对训练样本的BFR特征和底层特征训练回归模型,然后利用回归模型将测试样本的音频特征映射到 BFR特征空间,该回归算法能充分利用测试样本的信息,相对于其他回归算法,可以预测得到更好的BFR特征。最后,将测试样本的BFR特征和底层音频特征融合后进行音频分类,得到了比传统音频特征和本文提出的BFR特征更高的音频分类准确率。  最后,提出了一种基于 BFR特征和视听觉特征的视频受关注度识别方法。视频受关注度分析涉及情感计算学科,是一个新兴的研究方向。本文随机选取不同受关注度的视频作为训练样本,获取被试在观看训练样本时的fMRI信息,并量化得到BFR特征。然后,收集现有与视频受关注度有关的底层视听觉特征,并从训练样本和测试视频中提取这些特征。最后,利用多模态深度玻尔兹曼机(Deep Boltzmann machine,DBM)无监督学习 BFR特征和底层特征的联合表达,该联合表达可以作为融合特征用于视频受关注度分类中。本文采用的多模态DBM可以直接预测没有进行fMRI扫描的视频的联合表达,即只在训练阶段需要两种特征的参与,而在实际运用中,只需要基于底层特征和DBM模型便可以将测试视频的融合特征预测出来,不再需要对测试视频进行 fMRI扫描。在视频数据库上的实验结果证明了本文方法得到的视频受关注度分类准确率高于计算机底层视听觉特征。  综上所述,本文利用fMRI技术采集大脑接受视音频刺激时的响应,并从中提取了BFR特征,通过机器学习算法将该特征引入到现有的视音频分析中,提高了视音频分析的准确率。本文方法在脑科学和多媒体分析之间架起了桥梁,为传统的视音频分析提供了新的研究思路。
其他文献
GIS系统把各种地理信息和有关视图结合起来,有着广泛的应用前景,被公认为2l世纪的支柱产业之一。但是,在GIS发展过程中出现的各种GIS系统存在着数据格式不一致、不能兼容及不能
本文以成都电子机械高等专科学校新校区配电监控系统项目为背景,提出了基于.NET框架的变配电站监控和Web服务器的远方调度系统的设计方法和实现过程。该监控系统软件的开发环境完全采用当今最流行的.NET平台,开发语言采用最先进的C#语言,数据库采用SQL Server 2000。整个系统可以分为两个部分,一部分是变配电站端监控,另一部分是远方调度。变配电站端监控系统的开发由原来的两种平台混合开发模式改
随着计算机技术,特别是Intemet技术的发展,基于Web的软件技术得到了空前的发展,各行业信息化进程日益加快,国内大小企业都在构建满足本行业发展的Web信息系统。然而,Web软件的开发
随着计算机技术和采集设备制造技术的飞速发展,人们对视觉感受的要求越来越高,表示事物的数据维数也越来越大,例如高清图像和视频数据等。在压缩感知领域中往往认为,这些高维
语音识别是实现人机通信的重要手段。让计算机能听懂人类的语言,是人类自计算机诞生后梦寐以求的追求。语音识别技术的理论研究和产品的开发具有深远的理论研究意义和实际应用
随着我国国民经济的快速发展,电力能源消耗越来越大,电力资源越来越紧缺。因此如何节约能源,提高效率,成了人们研究的热点。异步电机在现在工业中起了重要的作用,是耗电量最多的一种设备。那么异步电机的效率优化就成为了节约电力资源的一个有效途径。随着半导体业的快速发展,特别是数字信号处理器的出现,以及精确的异步电机模型和各种先进控制策略的提出,异步电机控制技术得到了飞速的发展。所有这些也使得精度高、调速范围
在我国中低压配电网中,中性点非有效接地方式被广泛采用。采取这样的运行方式,是考虑到允许其在故障后一段时间内继续保持运行,可以相对有效减少用户端意外停电的次数,减少因为过线路故障,过度频繁停电带来诸多损失。但该类配电网,对于它们出现的故障,检测工作困难也就出现了。其原因在于,发生故障后,故障电流十分微弱,不易检测。这是因为接地点与中性点之间无法构成低阻抗的回路。如果不在有限时间内排除将故障排除,将会
无论是建设军事强国还是实现工业现代化,多传感器目标跟踪都有着广泛的应用领域。尽管多传感器目标跟踪是一个历史悠久的研究领域,但又是一个不断发展、常做常新的领域。特别是
本论文结合步进电机细分控制理论和当前细分控制技术的发展,针对三相混合式步进电机运行过程中出现的低频振荡和失步问题,设计了一种基于TMS320LF2407A数字信号处理器的全数字式的三相混合式步进电机细分驱动系统。文中首先介绍了三相混合式步进电机的结构和工作原理,并忽略步进电机的一些非线性因素,建立了比较理想的数学模型,然后分析了步进电机的运行特性及细分控制的必要性,进而分析了细分驱动对改善步进电机
图像的边缘是图像最基本也是最重要的特征之一。边缘检测一直是图像处理和计算机视觉领域经典的研究课题,其结果的正确性和可靠性将直接影响到机器视觉系统对客观世界的理解。