基于先验注意力机制的视频问答系统研究与实现

来源 :江南大学 | 被引量 : 0次 | 上传用户:modlong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
视频问答是深度学习中重要的问题之一,被广泛应用于安防、广告系统中,提高视频问答的准确率具有非常重要的意义。近年来,理解视频的内容是在现实世界中开发各种有用应用程序的核心技术之一,例如识别监视系统的各种人为行为或在自动商店中进行客户行为分析。然而,由于其庞大的数据量和复杂的时间结构,理解视频的内容仍然是一个具有挑战性的任务。近年来,自然语言处理中注意力机制方法得到了人们的关注,并迁移到视频问答任务上。但是,现有的方法仍存在四个方面的不足:一是使用对整个视频进行提取特征,这样虽然能够捕捉到视频的所有信息,但是由于视频本身的冗余性,训练代价巨大,得不偿失;二是部分现有方法采用了提取片段帧信息试图来描述视频,提取过多导致内容冗余,提取过少造成内容缺失;三是问题的处理比较粗糙,并没有对停用词进行处理;四是现有的模型并没有考虑视频问答任务复杂性与逻辑性。以上的不足影响了模型的泛化性能,同时由于准确率低使得现有的视频问答模型不能够广泛应用于工业界。本文在注意力机制框架下,提出了先验信息注意力机制MASK模型,并在这基础之上提出了两种不同的视频问答方案:先验MASK的多注意力机制的视频问答方案和先验MASK的图注意力机制的视频问答方案。先验MASK的多注意力机制的视频问答方案提出了3种注意力机制以及先验MASK方法,该方案首先采用帧特征提取视频的关键帧,然后通过Faster R-CNN以及残差网络提取视频中帧特征,以此得到特征以及视频关键帧中的对象标签,使用word2vec以及LSTM对问题进行编码,将抽取到的视频特征以及视频标签和问题文本特征融合输入到上述的先验MASK注意力机制模型中,最后得到问题的答案。本文模型在阿里巴巴天池之江杯(ZJB)大赛中取得了全球冠军,同时通过大量的对比实验证明了本文的方法较现有的方法更有优越性。而先验MASK的图注意力机制的视频问答方案则采用了图数据结构来表达视频中物体与物体之间的关系。使用Faster R-CNN提取出视频关键帧中物体的坐标以及所属类别,采用节点注意力机制以及边注意力机制将物体特征作为节点构建图,然后通过问题特征与图特征进行嵌入,得到的结果输入先验MASK中,得到模型的最终答案。实验结果表明,虽然图注意力网络模型具有较少的参数量,但是精度并没有损失很多,在某些对精度要求不是很高但对速度要求很高的场景该方案具有较大的应用价值。
其他文献
随着计算机网络和通信技术的不断发展,很多终端设备都已经设有多个网络接口。像手机设备,设有4G、WiFi等多个端口,这些设备之间端到端的传输有多条路径可以到达,而传统的TCP
微纳机电系统的快速发展,对现代传感器提出了微小集成和功能集成的新要求,而传统的机械运动传感器在这方面很难实现本质性的突破。另一方面,随着纳米科学的发展,摩擦纳米发电
教育本身是一种文化的传承,校园文化建设就是要更好的实现文化的传承。校园文化是影响学校教和学的重要因素,也是学校整体发展的重要标志。当前,新一轮课程改革方兴未艾,它已
传统的工厂检测产品表面的加工质量主要以人工检验为主,检验耗时耗力,且检验质量常受人为因素的影响,占用了社会大量的人力资源。随着智能工厂的发展,传统的流水线生产作业将
面对日益复杂增长的电磁战场环境,立足于5G时代各个芯片公司推出的高度集成SoC(片上系统)芯片,本文对便携式宽带电子侦察信号处理技术及其工程化实现进行了探讨;提出了一种基
作为我国经济发展的支柱产业,房地产因其高收益一直受到投资市场的追捧,因此该市场所存在的竞争也异常激烈。如何合理有效的对房地产投资项目进行评估,如何选择效益最优的项
原油换热器管道多达八百多根,管道定位机械手安装在换热器壳体内部,负责在换热器正常工作的同时对全部管道进行逐一的定位及清洗。由于换热器内部充满高温高压高黏度的原油,
啁啾脉冲技术的发展使得超强超短激光成为可能,超短超强激光与等离子相互作用领域的理论和实验研究也取得了长足的发展,这些研究在新型粒子加速器和惯性约束核聚变等领域具有
近年来,随着科学技术的迅速发展,多智能体系统被广泛应用到军事、工业、航空航天等领域,受到了广大学者的关注,同时为我们的生活带来了极大的便利。其中,多智能体协同控制作
玻化微珠承重保温混凝土是一种综合承重、保温一体化的绿色建材,其不仅能够像普通混凝土一样,作为建筑物的结构承重构件,而且在浇筑成型后,还可以凭借自身的低导热系数,来满