基于图神经网络和注意力机制的视频行人属性识别方法

来源 :天津大学 | 被引量 : 0次 | 上传用户:wuang810
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科技的发展,人们对社会公共安全的关注度逐渐提高,使得世界各地政府和学者在智能安防领域投入大量精力。安防系统无论是在民用还是在军用都有着不可或缺的地位,而安防最重要的手段之一就是视频监控技术。近年来,有很多学者在行人属性识别领域进行研究,也取得了很大的进展,从最初的手工设计特征结合传统机器学习方法到现在的深度学习算法,行人属性识别技术水平也在不断提高。但是目前大多数的研究都是基于单张图片进行的,而我们从摄像头中获取到的是视频数据,如何能够高效的在监控场景下进行基于视频的行人属性分析是未来的发展方向之一,因此本文工作便是基于视频基础上进行的,研究内容如下:(1)本文是基于视频基础上进行的行人属性识别研究。根据视频行人属性数据集特点,行人的ID属性和运动姿势属性共享特征可能会有功能竞争情况,因此将这两类属性分开识别,采用双通道识别模型,并在每个通道引入时间注意力机制。本文为挖掘属性标签的相关性,在标签间建模,针对行人ID属性通道,提出了一种基于图卷积网络的属性识别分类器。首先对输入帧进行时间信息上的挖掘,利用时间注意力模型,判断输入帧的重要性,得到带有时间特征的图像级表示。基于图卷积的属性识别分类器将ID属性标签作为输入,经过图卷积操作在标签间进行建模,学习节点间的隐信息,挖掘标签间的联系,将得到的相互依赖的属性分类器引入到图像表示的网络中,以实现端到端的训练。(2)本文为挖掘空间信息与属性信息间的关系,针对运动姿势属性通道引入了时空注意力模块。该通道属性为站立、跑步、骑车等运动姿势属性和正面侧面等角度属性,因此需要利用时空信息进行属性识别。时空注意力模块中的时间注意力侧重时序特征,空间注意力侧重空间特征,采用多空间注意力模型从不同角度提取空间特征,然后进行特征融合,得到输入图像序列的时空特征,这样能够增强输入的时空信息,进而对行人的运动姿势进行分类。本文分别在两个视频数据集上对上述两个工作进行了实验验证,并与其他方法工作进行了比较,结果表明无论是行人ID属性还是运动姿势属性,本文方法的识别性能均有一定的提高,实验结果验证了本文方法的有效性和可靠性。
其他文献
近些年来,随着无线通信技术快速发展,移动互联网向无线端迅速延伸。一方面,通信方式不断增加,覆盖范围持续扩展,业务多样性明显提升,给人们生活带来了显著变化。另一方面,随着社交网络、人工智能、大数据等信息产业的发展,数据信息量的大幅攀升,呈指数增长的人和机器需要实时构建信息网络,对无线网络的需求加速更新。新兴业务对通信服务质量和用户体验等要求的提升,使得传统通信技术难以满足信息量的现实需求。其中的核心
学位
篇章关系识别(Discourse Relation Recognition)旨在理解两个相邻的篇章单元(称为论元)之间的语义连接关系,包括偶然关系、比较关系、扩展关系和时序关系等,其广泛应用于文本摘要、智能问答、机器翻译等自然语言处理领域中。与显式篇章关系不同,隐式篇章关系识别任务由于不能通过连接词直接识别篇章关系,需要结合特定的上下文特征对篇章进行理解,逐渐成为一项极具挑战性的研究任务。目前,隐
学位
近年来,语音合成技术逐渐受到了国内外研究者的广泛关注。在情感语音合成中,如何利用有限的数据进行语音合成模型的训练,以及如何对模型进行改进以适应带有情感风格的非语言韵律特征等问题,依然是目前亟待解决的。对于情感语音合成任务而言,去获取每个说话人的大规模情感语音数据是具有难度和高成本的。所以本研究提出了一种利用情感语音分类任务的中间结果进行迁移学习的方法,该方法能够有效利用低数据资源下的情感语音数据,
学位
深度学习的快速进步促使深度学习算法在计算机视觉、自然语言处理等领域的不断发展,出现了诸如自动驾驶、机器翻译等实际应用系统,不断便利着我们的生活。深度学习依赖于大量标注数据,我们不得不耗费昂贵成本保证其有效工作。但是仍然存在对于少训练样本类别性能下降和无训练样本类别性能近乎为零的问题。为了解决这一问题,使得深度学习系统能够同时识别已见类别和未见类别,学术界提出零样本学习。零样本学习利用已见类别和未见
学位
同时定位与建图(Simultaneous Localization and Mapping,SLAM)在机器人导航、增强现实等应用中具有重要意义,并获得广泛关注与研究。由于视觉传感器具有场景语义信息丰富、成本低廉等优势,视觉SLAM算法在理论研究和实际应用中都得到了快速的发展。现有视觉SLAM算法框架一般可分为视觉前端追踪和后端优化两部分。视觉前端追踪通常采用关键帧思想,对帧与帧之间的相对运动进行
学位
虚假评论识别对于保障消费者和商家的权益以及保证科研数据准确具有重要的意义和价值。目前虚假评论识别主要有两类方法:第一类方法是提取评论文本和评论者相关的统计特征,然后采用传统机器学习模型进行识别;第二类方法是采用深度学习模型提取评论文本语义特征来进行识别。本文在这两类方法的基础上,以Yelp评论数据集为研究对象,构建了一种结合统计特征和文本语义特征的虚假评论识别模型SF-MCLSTM。本文主要的研究
学位
基于图像的人脸重建有着广泛的应用前景,一直是一个重要且具有挑战的问题。尽管现有的基于多图像的人脸重建方法已经取得了可喜的成果,但由于操作设备价格昂贵和图像捕获困难,使得在实际应用中具有很大的局限性。单图像的获取更容易且不需要昂贵的器材,因此探索基于单个输入图像的人脸重建方法尤为重要,但是单图像中如果存在遮挡情况,则无法捕获到被遮挡区域的语义信息。目前解决这一问题的办法有两大类,一类是基于深度学习的
学位
随着公共数据库中生物序列的大量涌现,出现了很多用于预测基因和蛋白质的功能属性的生物信息学算法。预测基因和蛋白质的功能属性过程中的一个挑战是直观地分析和理解生物序列的统计特征。虽然目前已经出现了一些web服务器和独立程序用于生物序列的特征提取以及特征可视化,但是仍然缺乏一个可以完成多种序列特征可视化的软件工具。因此本文完成了一个生物序列特征可视化系统,这是一个开源的跨平台独立程序,它可以通过特征可视
学位
长非编码RNA(long noncoding RNAs,lnc RNA)在多种生物活动中发挥着重要作用,包括转录、剪接、翻译和细胞凋亡等等。实验表明lnc RNA主要通过与蛋白质的相互作用实现其生物功能,因此研究lnc RNA与蛋白质的相互作用对于探索lnc RNA的作用机制具有重大意义。通过生物实验验证lnc RNA-蛋白质相互作用需要耗费大量的时间和金钱,开发计算模型预测lnc RNA-蛋白质
学位
随着海上交通量的迅猛增长,水域内的交通负担加重,航运事故时有发生,航运相关人员的生命财产安全受到巨大的威胁。为了提升水域交通管理和异常轨迹监管的服务质量,船舶交通服务系统主要采用船舶轨迹预测方案来监测船舶异常行为,维护水域交通安全。船舶的航线预测属于长期预测,而目前大多数轨迹预测模型对于长期轨迹预测的效果并不理想,且不适用没有路网束缚的海上交通情形,因此无法使用传统的轨迹预测模型来实现船舶轨迹的预
学位