论文部分内容阅读
多媒体文档是指音频、图像、文本、视频(连续图像帧)等组合模态数据的总称。音频、图像、文本和视频(连续的图像帧,不含音频)各自有不同的侧重点,音频侧重听觉方面的信息,图像和视频侧重表达了视觉方面的信息,文本侧重表达了文字方面的信息。此四类模态虽有各自的不同表达侧重点,但是都表达了丰富的语义信息。为了更好的分析多媒体文档包含的语义信息,需要充分挖掘各模态数据之间的互补性和相关性,因此研究多模态数据关联势在必行且有十分广泛的应用意义。由于相异模态表达侧重点不同,给多模态数据的分析带来了一定的困难,主要包括:1、如何确立关联,即哪些物体之间存在关联;2、如何衡量关联尺度,即确定物体之间关联的量。由于各模态数据之间存在特征表现形式不同、存在异构性,表现出底层特征提取方法不同、特征维数不同和属性不同,彼此之间无法直接进行多模态数据关联计算,直接导致各模态数据之间虽内容关联但存在不可比性。多模态数据之间的内容特征异构性和不可比性,会进一步导致底层特征和高层语义之间存在所谓的“语义鸿沟”,因此增加了多模态媒体数据分析的难度。本文对多模态数据关联方法进行了深入研究,着重围绕电影媒体中的音视频关联分析,以及网页中的多模态数据关联分析展开。我们首先针对电影数据进行关联帧检测,通过对电影的视觉部分和音频部分分别建立视频关注度曲线和音频关注度曲线,建立音频关注度曲线和视觉关注度曲线,并根据关注度曲线关系检测出多模态数据的最大关联。其次,考虑到网页包含文本、图片、音频和视频等典型模态,我们对网页中的多模态数据的共生(co-occurrence)关系进行了探索,并利用多模态网页的共生关系建立多模态关联,进而应用这种多模态关联关系对网页元素进行关联传播,来实现相似网页的自动推荐。实验证明,本文中的方法可以有效地进行多模态数据关联度分析及应用。