论文部分内容阅读
随着视音频数据的爆炸式增长,准确的视音频检索、分类等分析方法成为人们研究的热点。目前视音频分析方法大都基于颜色、纹理、梅尔频率倒谱系数等计算机底层视听觉特征,这些底层特征在视音频分类、检索中的准确率还有待于进一步提高。本文提出一种新颖的脑功能响应(Brain functional response,BFR)特征,并利用该特征进行视音频分析,提高了现有视音频分析的准确率。主要工作包括: 首先,提出了一种基于大脑功能响应信息的视频检索方法。首先,随机选取少量视频作为训练样本让被试(测试者)观看,同时利用功能磁共振成像技术(Functional magnetic resonance imaging,fMRI)采集被试大脑感兴趣区域(Regions of the interests,ROIs)的响应信号。其次,利用功能连接矩阵来度量每两个ROIs之间的功能连接,功能连接矩阵可以表征大脑对视频刺激的理解并作为初始的BFR特征。第三,由于功能连接矩阵中存在着冗余和无效信息,我们利用特征选择方法对其进行特征选择,选取其中最具分辨能力的元素作为BFR特征。第四,由于fMRI采集成本较高,对所有视频进行fMRI扫描不具有可行性,但是我们却拥有大量廉价的底层视觉特征,所以本文利用双高斯过程回归算法对训练样本的BFR特征和底层视觉特征进行训练,然后利用训练好的回归模型将测试视频的底层视觉特征映射到BFR特征空间,得到测试视频的BFR特征。最后,利用流形排序方法在BFR特征空间上进行视频检索。视频数据来自TRECVID2005数据库,实验结果表明本文方法得到的视频检索准确率高于底层特征的检索准确率。 其次,提出了一种融合底层视听觉特征和BFR特征的视频聚类方法。随着对BFR特征和底层特征的深入研究,我们发现虽然整体上 BFR特征具有较高的视频分析准确率,但是两者之间也具有互补性,即有些视频在BFR特征空间具有较高的区分能力,有些却在底层视听觉特征空间中具有优势,因此,我们利用多模态谱聚类算法对回归模型预测得到的BFR特征和底层特征进行融合聚类,得到比单独使用BFR特征或底层视听觉特征更高的视频聚类准确率。另外,我们采用基于小波变换一致性的功能连接矩阵来度量ROIs之间的交互,实验证明可以得到更优的BFR特征。 再次,提出了一种基于自然刺激fMRI的音频分类方法。首先,选取少量音频作为训练样本,从被试聆听训练样本时采集的大脑fMRI信号中获取BFR特征。其次,提出了一种基于自训练的双高斯过程回归算法对训练样本的BFR特征和底层特征训练回归模型,然后利用回归模型将测试样本的音频特征映射到 BFR特征空间,该回归算法能充分利用测试样本的信息,相对于其他回归算法,可以预测得到更好的BFR特征。最后,将测试样本的BFR特征和底层音频特征融合后进行音频分类,得到了比传统音频特征和本文提出的BFR特征更高的音频分类准确率。 最后,提出了一种基于 BFR特征和视听觉特征的视频受关注度识别方法。视频受关注度分析涉及情感计算学科,是一个新兴的研究方向。本文随机选取不同受关注度的视频作为训练样本,获取被试在观看训练样本时的fMRI信息,并量化得到BFR特征。然后,收集现有与视频受关注度有关的底层视听觉特征,并从训练样本和测试视频中提取这些特征。最后,利用多模态深度玻尔兹曼机(Deep Boltzmann machine,DBM)无监督学习 BFR特征和底层特征的联合表达,该联合表达可以作为融合特征用于视频受关注度分类中。本文采用的多模态DBM可以直接预测没有进行fMRI扫描的视频的联合表达,即只在训练阶段需要两种特征的参与,而在实际运用中,只需要基于底层特征和DBM模型便可以将测试视频的融合特征预测出来,不再需要对测试视频进行 fMRI扫描。在视频数据库上的实验结果证明了本文方法得到的视频受关注度分类准确率高于计算机底层视听觉特征。 综上所述,本文利用fMRI技术采集大脑接受视音频刺激时的响应,并从中提取了BFR特征,通过机器学习算法将该特征引入到现有的视音频分析中,提高了视音频分析的准确率。本文方法在脑科学和多媒体分析之间架起了桥梁,为传统的视音频分析提供了新的研究思路。