视频运动模式分析及其在行为识别中的应用

来源 :北京工业大学 | 被引量 : 0次 | 上传用户:wanyuequn
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
视频行为识别是计算机视觉领域的热点研究方向之一,在视频智能化分析、监控视频异常行为检测和人机交互等领域有广阔的应用前景。视频数据不仅包含空间域表观信息,还包含时间域运动信息,而且在很多视频如体育视频中,运动信息与行为有很大相关性,是行为识别中常用的数据模态。如何提取有效的运动信息并用于行为识别是一个非常值得研究的问题。视频中的运动信息包括全局运动和局部运动。目前的行为识别算法大多采用光流估计来获取帧间运动场,其本质上是全局和局部运动相互叠加的混合运动。实际上,全局和局部运动来自于不同的主体,全局运动是相机运动的结果,它体现了拍摄者的意图;局部运动来自于镜头中的人或物体。有些视频如监控视频中,局部运动通常和事件直接相关,是我们关注的,外界环境干扰引起的相机运动而产生的全局运动有可能是一种噪声。有些视频如体育视频中,局部运动是由事件的主体——运动员产生,而相机运动是为了更好地表达事件,因此二者之间有较强的关联性,但不同类型的比赛视频如NCAA、NBA、CBA等篮球比赛中,同一事件的转播方式不完全相同,全局运动不完全一致。因此,为了提升行为识别的性能,有必要将全局和局部运动分别考虑。论文面向全局和局部运动分离及其在行为识别中的应用开展研究。主要研究工作如下:(1)提出一种适用于行为识别任务的单变量全局运动模型。在面向行为识别的视频如体育视频中,常见的相机运动包括平移、缩放和摇动。在已有全局运动模型中,平移变换模型和仿射变换模型无法精确表达摇动变换,透视变换模型可以表达上述所有相机运动但是模型参数过多,较为复杂。针对这一问题,本文通过分析基本的相机运动的特点,提出了一种单变量全局运动模型,引入二次方项精确表达摇动变换,同时水平和垂直方向运动独立表示降低模型复杂度。对比实验结果表明,提出模型在复杂度和全局运动表达准确性方面取得了较好平衡,适用于行为识别应用中的全局运动建模,为全局和局部运动估计奠定基础。(2)全局运动估计算法研究。全局运动由相机运动产生,具有空间移不变特点,因此可以由局部区域的全局运动点来估计适用于整幅图像的全局运动参数。已有RANSAC算法即通过多次随机采样像素点来估计模型参数,但耗时较高且估计精度存在不确定性。针对这一问题,本文首先提出了基于统计分析的全局运动估计算法,基于局部运动出在视频帧边缘区域的概率比较低这一特点,由图像四个边缘上的像素点通过统计分析估计全局运动模型参数,算法具有运算速度快的优点。但如果边缘区域有运动目标,则参数估计精度会受到影响。本文进一步提出了基于迭代优化的全局运动估计算法,逐步去除包含局部运动的异常点,由越来越多的只有全局运动的点拟合得到模型参数。迭代优化算法得到精确的模型估计结果,然而迭代运算耗时长,且无法进行并行计算。最后,本文提出了基于神经网络的全局运动估计算法,设计神经网络结构,初步实现由混合光流到全局运动的端到端计算。对比已有RANSAC算法,三种算法有各自的优缺点,基于统计分析的算法运算速度最快,但参数估计误差较大;基于迭代优化的算法参数估计准确性最优,但运行速度需提升;基于神经网络的算法模型设计比较初步,运算速度较快,但参数估计精度还不能令人满意。(3)基于运动模式的行为识别。首先,基于上一步的全局运动估计结果,提出了一种基于时空域阈值的局部运动估计算法,通过空间域和时间域两阶段优化,有效抑制场景中的非局部运动分量,从混合运动中分离出局部运动。进一步基于局部运动模式(局部运动变化规律)进行行为识别。在UCF101上的实验结果表明,在行为识别任务中,局部运动模式在准确性和收敛性方面均优于混合运动模式。最后,以篮球比赛视频为研究对象,基于分离的全局和局部运动,采用双流3D卷积神经网络实现全局和局部运动模式的特征提取与融合,并最终应用于群体行为识别。在此基础上,结合场景关键区域(篮筐区域)的视觉特征变化规律,将基于运动模式的群体行为识别与基于关键视觉信息的成功失败分类相结合,实现篮球语义事件识别。在NCAA上的实验结果表明,融合全局和局部运动模式能够有效提升群体行为识别性能。运动模式和视频关键视觉信息相结合的语义事件识别算法取得最好性能。
其他文献
智能电网的建设和发展对信息通信提出了更高的要求,作为电力系统特有的通信方式电力线载波通信(Power Line Carrier Communication,简称PLC)以其高效、经济、可靠、安全的性
本文研究了2003—2014期间,信任作为社会资本对韩国地区经济发展的重要作用。在文献中,韩国的社会资本与经济发展之间的实证研究还没有得到很好的研究。本文重点分析了利用从
钛合金多孔材料比强度高、比刚度高、耐腐蚀性强、具有能量吸收能力、渗透能力以及生物兼容性,是目前应用广泛的植入体材料。人体骨骼为层级结构,由强度、抗压性能、密度较高的密质骨和密度较低、内含血管的松质骨组成,因此,植入体材料的结构设计要与人体骨骼层级结构相匹配。多孔材料的力学性能和变形行为受胞元类型以及基体材料性能的影响,但目前最适合植入体材料的胞元设计仍无定论,因此采用新颖的设计方法进行胞元设计并通
“多元化”的观念最早由美国学者伊戈尔·安索夫于上世纪五十年代末首次提出,随后对于企业多元化经营、企业绩效以及二者间关系的研究在学术界中成为了热门课题。随着信息技术的飞速发展,世界正在不断走向信息化,世界经济与市场也在不断朝着一体化发展,企业之间的竞争也日益加剧,导致我国诸多企业通过选择多元化经营的发展道路,来追求更长久的持续发展。尽管由专业化转向多元化发展的热潮接二连三被掀起,但是各家企业获得的最
近年来,伴随着互联网的进一步普及,网络经济迅猛发展。网络商品交易极大地改变了人们的生产生活方式,网络购物已成为一种重要的消费方式,网络交易额在零售消费总额中所占的比
随着工业的不断升级与发展,各种环境问题接踵而至,2019年臭氧污染已经成为了我国第二大大气环境问题,臭氧污染主要与其前体物氮氧化物与VOCs的排放相关,我国的臭氧污染主要是VOCs控制型,河北省石家庄市以制药、化工、包装印刷及制造为主,这种高VOCs污染的工业特点也导致了石家庄市的臭氧污染与VOCs排放高度相关,2018~2020年河北科技大学以三方团队模式负责石家庄市生态环境局挥发性有机物及臭氧
棉花作为新疆最主要的大田经济作物,对新疆的经济社会发展及农民收入等有重要影响,因此,快速、准确地获取棉花的种植面积及其空间分布对于调整和优化新疆棉花产业布局具有重要意义。目前对于棉花时空分布及驱动力分析的相关研究大多都采用统计数据,缺少空间性。而采用遥感手段进行棉花面积的提取,不仅可以大幅度减少成本,而且数据的准确性和客观性得以保证。本文选择新疆作为研究区,以Landsat 8、GF-1及Sent
近年来,聚类作为一种无监督的数据挖掘方法,通过提取数据的特征信息,以特征作为聚类的基本属性,来实现对数据的信息挖掘。结合线性代数的方法和理论,出现了许多信息数据的特
广义Pareto分布(Generalized Pareto Distribution,GPD)在极值理论中极其重要,其广泛应用于金融和水文等领域.如,GPD可用于模拟洪水等极端现象的相关数据.在可靠性和生物医学上,具有非单调失效率函数(failure rate function,frf)的数据相当常见,但GPD只能拟合具有单调失效率的数据,没有充分的理由利用GPD拟合该类数据.因此,对GPD进行推
中国移动通信技术的持续发展导致移动通信网的设备运行的性能数据也在不停的增加。为了达到通信用户不断增加的体验要求,移动运营商需要在现有设备与数据的基础上对移动通信