【摘 要】
:
近年来,AI技术逐渐产业化。一直备受关注的计算机视觉领域的成果在商品识别、智能安防、智慧城市等领域纷纷落地开花。人脸识别、行人检测、行人重识别、行人搜索等技术与安防领域的实际需求十分契合,也因而得到了越来越多的关注。本文在各种经典计算机视觉任务模型的基础上,对行人搜索技术在实际应用中十分典型的一体化搜索场景和严重非对齐搜索场景进行了分析,并提出了相应的模型与算法。一体化行人搜索场景是指行人检测与行
论文部分内容阅读
近年来,AI技术逐渐产业化。一直备受关注的计算机视觉领域的成果在商品识别、智能安防、智慧城市等领域纷纷落地开花。人脸识别、行人检测、行人重识别、行人搜索等技术与安防领域的实际需求十分契合,也因而得到了越来越多的关注。本文在各种经典计算机视觉任务模型的基础上,对行人搜索技术在实际应用中十分典型的一体化搜索场景和严重非对齐搜索场景进行了分析,并提出了相应的模型与算法。一体化行人搜索场景是指行人检测与行人再识别相结合的实际搜索场景,其研究目标是在给定的候选全景图像集中检测出待搜寻的目标行人样本。对于一体化行人搜索模型的搭建,我们设计了空间自适应行人搜索网络(Space Adaptive Person Search Network,SAPN)端到端的完成行人搜索,实现监控场景中行人坐标与行人特征的同时输出。并且,针对行人搜索中行人的刚性变换、姿态问题,我们设计了行人空间适配器以获取更为鲁棒的行人特征来提高网络的实际性能。在公开数据集CUHK-SYSU和PRW上的实验结果表明,在联合训练的条件下,SAPN的检测性能优于已有工作。严重非对齐搜索场是指较大时空跨度下的行人搜索场景,其研究目标是仅用一张人脸照,在包含全身行人、半身行人以及有清晰人脸行人、无清晰人脸行人的图像候选图集中找到衣着外观都可能发生较大变化的目标行人。并且数据量巨大时,传统搜索方法利用多种行人特征进行搜索,耗时久占存多,亟需改进。为此我们设计了基于哈希的多特征行人搜索网络(Hash-based Multi-feature Person Search Network,HMPN)来实现行人人脸、全身、半身等多种特征的提取和哈希编码,同时引入多索引哈希快速搜索和哈希特征预检来优化行人搜索的端到端耗时。在提取行人多种特征的基础上,我们提出了一个行人交叉搜索算法,利用人脸特征进行目标行人样本的扩充和搜索结果的过滤。在公开数据集CSM上的实验结果表明,我们提出的多特征行人搜索模型在提升行人搜索任务准确率的同时,大幅降低了行人搜索任务的耗时。综上所述,本文从两个典型搜索场景对行人搜索技术进行了研究并提出模型和算法,通过实验验证并分析了本文中方法的有效性,对未来的研究方向进行了展望。
其他文献
近年来随着深度卷积神经网络的不断发展,图像分类、目标检测、语义分割等领域都取得了突破性的进展。而与此同时,卷积神经网络所需的参数量与计算量也日益增大,使网络模型在智能手机或嵌入式平台等资源受限硬件上的部署成为了一项相当有挑战性的工作。因此,需要研究对现有卷积神经网络模型进行压缩的算法,减少模型的内存占用和计算量,从而使网络模型在实际部署硬件上能有更好的性能表现。本文对卷积神经网络的压缩和加速算法展
视频服务近些年来在互联网以及移动互联网的流量占比逐年增加,用户人数也呈现增长趋势。用户对视频服务需求的提升推动了新一代,高质量视频标准以及视频技术的产生与发展。超高清(Ultra High Definition,UHD)视频,特别是其中的高动态范围(High Dynamic Range,HDR)视频,是近些年来视频技术发展的重要方向之一。随着HDR视频显示技术,以及HDR视频传输技术的成熟,HDR
自主避障系统是移动机器人自主性的核心体现之一。提高非结构化环境下自主避障系统的安全性和可靠性是当前自主避障系统的重要研究需求。非结构化的环境中可通行区域的几何结构复杂,种类多样,区域边界不清晰,且环境状况不固定。传统的避障系统主要使用几何结构信息和低层次的视觉信息,缺少对语义信息的考虑,因而在非结构的环境下难以区分不同的可通行区域,诸如草地、自行车道、人行道等;并且,传统的避障系统没有衡量地形、语
下一代无线通信系统将会是超快速,超低延迟以及超可靠的。由于低密度奇偶校验(Low-Density Parity-Check,LDPC)码译码复杂度低,误码平层低,能够高速并行运算,因此在未来通信系统中将拥有巨大发展潜力和广阔前景。在高斯噪声下LDPC码的置信传播(Belief Propagation,BP)译码能达到接近香农极限的性能。和积(Sum-Product,SP)算法和由其简化的最小和(M
近年来,随着机器学习在分类、检测、推荐等多个领域取得显著成就,机器学习方法已经被广泛地应用于实际工业任务中,并取得了非常好的效果,创造了大量社会价值。然而,在真实场景中应用机器学习算法仍面临着非常多的问题。首先,目前的机器学习算法往往受到海量数据的驱动,但是随着整个社会对个人隐私保护意识的加强,对数据的收集、存储以及应用正受到越来越多的限制,这就为机器学习长久的发展与应用增加了阻碍。针对目前机器学
随着互联网及通信技术的发展,视频数据的产生越来越快捷,应用越来越普及。利用计算机辅助人们分析视频具有广泛的应用前景。行为识别作为视频分析课题中的一个重要子领域,相关研究工作具有很高的价值。神经网络技术的发展如火如荼,基于深度学习的行为识别算法已经成为该领域的主流研究方向。大部分主流数据集及网络结构都十分依赖视频数据中的空间信息,并不适用于细粒度的行为识别任务。细微差异动作识别有很多应用场景,如体操
随着线上零售的天花板效应显现,线下零售重新得到关注。线下零售以服务取得先天优势,而服务通过销售人员传递给顾客,因此提升销售人员的能力是目前企业管理实践的诉求。销售人员通过多年的经验积累,形成了独有的知识和技能,用以处理与顾客、同事与主管的关系,这些知识与技能构成了销售人员能力的核心。知识共享可以帮助销售人员共同掌握销售的知识与技能,有助于提升个人、团队乃至组织的竞争力。因此,有必要探索零售行业一线
图像的非真实感渲染是计算机图形学领域的一个重要研究方向,其具体的含义是指利用计算机来模拟各种视觉艺术的风格,从而绘制出带有艺术风格的图像。卡通风格也是一种图像艺术风格,伴随着近年来新媒体艺术的兴起和社交网络的流行,大众对于个性化卡通风格图像的需求日益增长,对于图像卡通风格渲染算法的研究具有重要的意义。图像卡通风格渲染是一项具有挑战性的图像非真实感渲染任务,其目的是将真实照片转换为卡通风格的非真实感
近年来,随着模式识别技术和计算机运算速度的快速发展,越来越多的深度学习技术被应用于各个领域。而基于深度学习的唇读技术也因其出色的识别性能受到了国内外学者的广泛关注。研究唇读的目的是利用嘴唇图像序列的视觉信息来补充语音等听觉信息,进而提高计算机系统对语言的理解能力。嘴唇图像分割有利于自动化提取嘴唇轮廓等信息,直接影响后续说话内容识别模块的性能。因此,实现精确的像素级嘴唇区域图像分割对唇读技术的应用具
得益于硬件计算能力的提升,深度神经网络越来越广泛地应用于计算机视觉任务中。为了提取更多的特征,提高网络的鲁棒性,神经网络呈现出层数越来越深,参数量越来越大的特点。桌面级GPU如NVIDIA 1080Ti完全可以训练和部署大型网络。但是移动设备如智能手机、无人机有着算力弱、带宽小、存储空间少的特点,使得大型的深度学习模型在其上部署面临很大挑战。因此将模型压缩后使其在资源受限的硬件平台上有效部署成为了