论文部分内容阅读
视频作为新生代媒体的载体,因其具备普及范围广、覆盖内容多的优势,已经成为人们进行信息交互的主要手段。但视频数据语义丰富,特征复杂,往往容易受到帧间相似性的干扰与采集设备分辨率的固有限制,致使人们在检索过程中获得高质视频变得异常困难。因此针对视频语义进行有效的分类分析具有重要的理论意义和应用前景。本文首先对近年来视频语义的分类方式进行综述,着重归纳了语义特征提取的现状并分析了每类方法的不足,从而表明应用深度学习对视频语义进行分类显得必要而富有意义;其次研究了卷积神经网络(CNN)的工作原理,设计并应用了其与极限学习机(ELM)相结合的分类框架;最后针对网络预训练过程中,常常出现由于过拟合、梯度消失等因素而导致收敛性能较差,影响分类器精度的难题,引入了基于群体搜索的元启发式算法优化CNN-ELM网络结构,实现语义自动化分类;同时提出一种优化的卷积神经网络超分辨率模型,以此处理关键帧并构成双卷积网络来实现语义高精度分类。主要三方面研究成果如下:1)提出了一种将改进自适应遗传算法(IAGA)与深度卷积神经网络相结合的分类方法(IAGA-DCNN),实现了真正意义上的自动化分类。利用IAGA对网络权重进行初始化,同时结合梯度下降法对网络权值进行修正。对于结构性较强的新闻视频及测试视频库Trecvid 2012的分类正确率分别达到90.03%与89.54%。进一步实验结果说明,本文算法不仅能够使用较少参数得到较高性能的训练网络,而且其与已有的三种手动设计参数方法和三种优化网络的方式相比更占优势,对复杂场景语义的分类准确率仍然保持领先水平。2)探讨并尝试利用粒子群优化算法(PSO)训练卷积神经网络权重,构成超分辨率重建算法(PSO-SRCNN),用来满足语义分类对于图像分辨率的高要求。建立起高、低分辨率图像间的端对端映射,利用PSO算法的搜索能力执行网络权值寻优,从而提升重建效率。对Set5,Set14图库以及无参考类建筑物模糊图片的重建实验表明,本文算法的重建效果不仅优于已有四种算法,而且有效抑制了振铃效应,凸显其在雾霾天气下实现图像重建的应用潜力。3)在IAGA-DCNN分类架构前引入PSO-SRCNN关键帧重建操作,对双优化卷积通道语义分类方法进行了充分研究,实现了高精度分类。实验结果说明,关键帧图像质量明显得到改善,而且对五类语义的平均分类正确率提高了1.09%,尤其显著提高了烟雾环境中模糊场景语义的分类鲁棒性。