论文部分内容阅读
本世纪初,越来越多的研究者开始关注视频挖掘研究。
视频挖掘是传统数据挖掘技术在视频领域的扩展,它是从视频中提取隐含的、人们事先不知道的、但是又潜在有用的模式和知识的过程。视频挖掘技术可以减轻人类的认知负担,促进视频多种应用的发展。
经过十多年的努力,在视频挖掘问题上,国内外学者已经取得了不错的研究成果,提出了可行的方案。但是从整体研究情况来看,现有的研究主要集中在计算机科学、数学、电子科学和工程等领域,更侧重于技术层面的改进,对于该领域的理论探讨则比较缺乏。而视频挖掘除了从纯技术角度考虑之外,还可以从更多的角度对其进行研究。本论文将从信息组织角度,立足于情报科学领域、对视频挖掘尝试一些创新性的研究。
本论文首先对国内外的研究现状做了比较全面的调研和述评,认为情报学特别是情报检索领域应当重视和加强视频信息组织和挖掘的研究。其次,论文考察了视频组织理论和技术发展的历史,总结了当今主要的视频组织结构和模式,包括传统的视频组织、基于内容的视频组织、以及两种相结合的组织方式,并分析了每一种组织形式的优缺点、阐明了新的组织模型建立的必要性。再次,在现有模式分析的基础上,论文吸取了其它领域的先进技术,建立了复合视频信息组织模型;该模型采用了分层的视频流结构、面向对象的视频资源描述、以及基于XML显示的组织形式,体现了不同领域知识的结合、同时较好地考虑了用户需求,具有较广泛的适用范围和良好的可扩展性。接着,在模型构建的基础上,论文系统地研究了作为视频处理基本技术支撑的视频挖掘技术,讨论了其所涉及的一系列复杂流程的算法选择和具体实现,涉及镜头边界检测、关键帧提取、区域分割、特征提取、数据的标准化、相似性度量、分类、聚类、结果的有效表征等多种技术层次。最后,论文从挖掘技术和用户交互两个不同角度进行了实验研究,展示了视频挖掘的具体流程、体现了复合组织模型的基本思想;其中,实验一、实验三重点展示了挖掘流程、并研究了视频视觉特征提取技术的改进,实验二则探讨了人与机器在视频挖掘方面存在的差异以及人类认知方式对于机器挖掘的借鉴意义。此外,本论文还探讨了视频特征联合挖掘、特征匹配的不同途径等问题,以期对相关领域有更深的研究;在相关技术讨论中,笔者也尽可能给出一些实例(基本上是笔者自己进行的实验),以便对相应技术有更好的理解。
本论文的创新点主要体现在:(1)提出了一种复合(Hybrid)视频信息组织模型。该模型考虑了整体性的视频信息描述及组织需求,从总体结构、组织模块及各组成部分对模型进行了描述;同时,该模型将刚户交互作为重要的组成部分,提出了用户交互的方法和角度,这是其它模型所没有的。(2)将基于区域的处理方式引入动画视频挖掘,提出并实现了新的基于区域的视觉特征抽取方法,它们建立在基于分水岭的区域分割基础之上。实验结果表明,基于新特征的分类取得了比对照组更好的效果,验证了新特征的有效性。(3)首次通过实验探讨了视频对象的人工分类和机器自动分类的差异,实验中发现机器分类效果超过了人工分类,对此结果做出了合理的解释;同时,在实验中观察到人类认知表现出了一些特性,如层次性、选择性、权重调整以及感官系统与神经系统配合的复杂性等。