基于语义的视频分析研究

来源 :西安建筑科技大学 | 被引量 : 0次 | 上传用户:ck198
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
视频作为新生代媒体的载体,因其具备普及范围广、覆盖内容多的优势,已经成为人们进行信息交互的主要手段。但视频数据语义丰富,特征复杂,往往容易受到帧间相似性的干扰与采集设备分辨率的固有限制,致使人们在检索过程中获得高质视频变得异常困难。因此针对视频语义进行有效的分类分析具有重要的理论意义和应用前景。本文首先对近年来视频语义的分类方式进行综述,着重归纳了语义特征提取的现状并分析了每类方法的不足,从而表明应用深度学习对视频语义进行分类显得必要而富有意义;其次研究了卷积神经网络(CNN)的工作原理,设计并应用了其与极限学习机(ELM)相结合的分类框架;最后针对网络预训练过程中,常常出现由于过拟合、梯度消失等因素而导致收敛性能较差,影响分类器精度的难题,引入了基于群体搜索的元启发式算法优化CNN-ELM网络结构,实现语义自动化分类;同时提出一种优化的卷积神经网络超分辨率模型,以此处理关键帧并构成双卷积网络来实现语义高精度分类。主要三方面研究成果如下:1)提出了一种将改进自适应遗传算法(IAGA)与深度卷积神经网络相结合的分类方法(IAGA-DCNN),实现了真正意义上的自动化分类。利用IAGA对网络权重进行初始化,同时结合梯度下降法对网络权值进行修正。对于结构性较强的新闻视频及测试视频库Trecvid 2012的分类正确率分别达到90.03%与89.54%。进一步实验结果说明,本文算法不仅能够使用较少参数得到较高性能的训练网络,而且其与已有的三种手动设计参数方法和三种优化网络的方式相比更占优势,对复杂场景语义的分类准确率仍然保持领先水平。2)探讨并尝试利用粒子群优化算法(PSO)训练卷积神经网络权重,构成超分辨率重建算法(PSO-SRCNN),用来满足语义分类对于图像分辨率的高要求。建立起高、低分辨率图像间的端对端映射,利用PSO算法的搜索能力执行网络权值寻优,从而提升重建效率。对Set5,Set14图库以及无参考类建筑物模糊图片的重建实验表明,本文算法的重建效果不仅优于已有四种算法,而且有效抑制了振铃效应,凸显其在雾霾天气下实现图像重建的应用潜力。3)在IAGA-DCNN分类架构前引入PSO-SRCNN关键帧重建操作,对双优化卷积通道语义分类方法进行了充分研究,实现了高精度分类。实验结果说明,关键帧图像质量明显得到改善,而且对五类语义的平均分类正确率提高了1.09%,尤其显著提高了烟雾环境中模糊场景语义的分类鲁棒性。
其他文献
为了满足对“无处不在的计算”越来越强烈的需求,无线传感器网络在过去的十年中经历了前所未有的发展。由于无线传感器网络技术的不断进步,近来出现了许多专门针对这一高速发
小区搜索技术是移动通信中实现终端和基站之间同步的关键技术。作为移动台读取基站信息的基础,小区搜索的性能对于整个通信系统的性能有着极其重要的影响。只有正确的小区搜
随着数字媒体、计算机视觉和虚拟现实技术的飞速发展,立体视频技术受到了广泛关注,已经成为近年来的一个研究热点。立体视频由于其具有比普通视频更大的数据量而在实际应用中受
科学技术不断发展的今天,通信与网络给人类生活带来了方便,提高了人类的生活质量。但人们并不满足于PC之间的通信,更希望生活中的所有物品都能随时与人类相连接,以方便查看和
随着移动通信业务量的飞速增长,对于不断扩容的移动通信网络而言,网络通信质量保证依赖于合理有效的小区覆盖,而实现合理有效的小区覆盖控制,全面深入地理解无线信号传播行为
随着通信技术和多媒体技术的发展,我们将迎来一个丰富多彩的多媒体通信世界。当前,移动通信技术的发展正处于向第三代和后3代移动通信技术的过渡过程中,而且人们对通信的要求
语音信号处理技术在数字电子产品中应用越来越广泛,其中语音信息的安全与保密已成为语音处理系统中一个重要研究方向。本文研究并设计了一个基于ARM微处理器和嵌入式Linux操
随着蜂窝移动系统普及和现代通信技术飞速发展,人们对基于位置信息服务的需求不断增加。除了满足E-911定位需求外,基于位置信息服务在为残疾人、病人、儿童及消防救火等方面
MASSIVE MIMO作为5G移动通信系统的关键技术之一,自其提出以来就受到人们的广泛关注与研究。通过在收发两端安装大量的天线,使系统的性能得到了极大的改善。然而,收发两端天