非受限环境的视频人脸识别算法研究

来源 :河北农业大学 | 被引量 : 0次 | 上传用户:oyphone
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
视频人脸识别是目前机器视觉领域的热门研究方向,其应用于身份验证等场合时,具有便捷、高效等特点,并在司法、金融、安防等领域广泛应用。但是,这些应用大多数是基于一种理想采集环境或人员配合方式的受限环境下的人脸识别。由于现实生活中人脸识别容易受诸如光照条件、姿态变化、表情变化等环境因素的影响,所以相对而言,非受限环境下的视频人脸识别研究更具有挑战性。利用深度学习特别是卷积神经网络开展人脸识别研究在近几年取得了显著的成绩并成为研究热点。本文对近年来人脸识别领域最新的学术动向进行了研究,发现基于卷积神经网络的深度学习是目前针对视频人脸识别研究的主流方法。影响精度的主要原因是环境的复杂多变带来的噪声,如光照、姿态、表情的变化等。针对姿势多变、光照多变等环境复杂多变的视频人脸识别问题,本文采用VGG(Visual Geometry Group)深度卷积神经网络作为基础网络,分别引入对称正定矩阵和奇异值分解以对网络进行改进,以跨帧集成面部信息以实现有效且稳健的视频面部识别。对称正定矩阵能够通过一组图像集的局部描述符对图像进行建模,奇异值分解能够对不同尺度的图像降低噪声、压缩图像矩阵。本文提出的方法分别在国际公开的人脸数据集上(YouTube Face Dataset、YouTube Celebrities Dataset)进行实验,本文主要工作及成果包括以下几个方面:(1)本文将卷积神经网络与对称正定矩阵表示结合设计了一个新的网络结构以对图像集进行表示与分类。将视频当做图像集处理,使用矩阵表示一个图像集,对称正定矩阵通过一组图像集的局部描述符对图像进行建模以表示视频中图像与图像之间的关系。另外,网络结构中使用归一化,进一步增强了网络的分类能力。(2)提出卷积神经网络与奇异值分解结合对图像集进行表示与分类。奇异值分解能够降低噪声,压缩矩阵数据。本文分析了奇异值分解后的奇异向量和奇异值的关系,并选取较大的奇异值对应的奇异向量对图像进行重构,重构结果表明,部分奇异值较大的奇异向量和奇异值能够有效的表达图像的特征。本文将深度卷积神经网络与奇异值分解进行结合,设计了一个新的网络结构,对人脸视频进行分类和识别,并选取不同数量的奇异值和奇异向量,分析不同奇异值和奇异向量对实验结果的影响。(3)为了验证提出的算法的有效性,本文在两个国际公开的数据库YTC、YTF上进行实验,通过将基于图片的人脸识别结果作为实验参照基准,本文的方法具有显著的优越性。实验结果表明,本文提出的基于视频的人脸识别方法实验结果与单张图像的相对投票法的人脸识别结果相比,在两个数据集上的识别准确率分别提升1.06%、3.31%。
其他文献
土壤风蚀是目前破坏全球生态系统的重要原因之一,严重影响人类的生存和发展。为了更好地满足人类生存发展的需求,稳定可靠的风沙监测手段具有重要的钻研意义。光纤光栅作为一种新型的无源器件,以其尺寸小、抗电磁干扰、耐腐蚀、传输距离远、传输容量大等特点,广泛用于现代化的监测系统中。因此,将其应用于本课题设计的风沙监测系统中,可以为风沙监测领域带来新的生机。当前风沙监测的方法主要有两种,一是传统的人工监测方式,
本学位论文是一篇基于《作为文体的物语·增补版》的翻译而完成的笔译实践报告。翻译原文为2012年出版的《作为文体的物语·增补版》第二部分的节选部分。其作者是小森阳一。
手势是指个体按照主观意识所做出的的手部动作,作为一种肢体语言,它包含了丰富的信息,是一种日常生活中广泛使用的,高效自然的交流方式。而手语动作作为手势的一种,是聋哑人进行交流和沟通的重要途径。然而聋哑人与不了解手语的健全人交流困难,这也一定程度上降低了聋哑人与外界交流的积极性。本文设计了一种交流中对方无需握持摄像头的,基于多传感器和Zynq的手语手势识别系统,能够实现对15种常用手语手势的快速识别,
随着Web 2.0技术的迅速发展,现在社会已经进入到一个信息爆炸的时代,信息过载已成为一个亟待解决的问题。推荐系统作为一种有效解决信息过载问题的方法在电商平台中得到广泛应用。现有的推荐系统大都基于协同过滤的方法,矩阵分解作为一种典型的协同过滤方法,在个性化推荐中得到了广泛的应用。其中,通过神经网络将用户和商品映射到潜在的结构空间再进行评分预测的深度矩阵分解模型受到越来越多的关注。本文受到带偏置的矩
随着Web2.0的到来,Web应用程序在互联网上提供的服务项目呈指数增长,而针对Web应用程序的攻击数量直线增长、攻击方式愈发复杂。但由于开发人员缺乏对Web应用程序安全性的关注和认识,并未使用安全的软件开发技术,导致Web应用程序漏洞百出而成为当前攻击的首要目标。针对程序漏洞的攻击,一般做法都是设置防火墙进行防御。传统的防火墙能够成功阻止网络层的攻击,但传统防火墙在基于应用层的Web应用程序的攻
伴随着并购浪潮和《上市公司重大资产重组管理办法》(2008;2014;2016),业绩承诺逐渐被市场接受。业绩承诺的设置动机是解决并购交易中的信息不对称,保护投资者利益,激发承诺方的主观能动性,从而维护并购双方的利益。然而在实际执行过程中,业绩承诺的效果如何?对于并购双方产生了什么影响?是否发挥了其应有的作用呢?本文拟通过对麦捷科技并购星源电子的案例研究,追踪其从业绩承诺契约条款设置、到业绩承诺完
随着传统能源危机和环境问题的日益突出,以风力发电为代表的清洁能源发展取得瞩目关注,但风电出力的随机性、弱抗干扰性和难预测性使风电消纳成为限制风电发展的关键性问题。
话轮转换是一种言语交际的基本模式,存在于一切的会话交际中。对话口译中的话轮转换与日常对话不同,两个发言人不是直接进行对话,而是依赖口译员为双方翻译。理想状况下,在对话口译中,口译员在对话者结束讲话后接过话轮进行口译,然后下一位对话者讲话。但现实情况中,话轮并非总是循环进行,非常规话轮的出现可能会给口译带来麻烦。本报告基于作者的两场同性质的口译实践——中荷农业及物流对接会和中荷医疗对接会,两场对接会
随着智能技术的发展以及网络监控设备的普及,视频监控系统逐渐成为现代社会生产生活平稳有序运行的重要保障,但是受限于人力、精力等因素限制,依赖人工识别的传统视频监控系统方案已经难以满足日常生活中多设备、多场景、多任务的海量需求。因此本文主要研究如何设计和实现一个智能视频监控系统来高效解决日益增多的复杂问题,并以违章停车检测这一实际需求作为系统的核心功能,基于计算机视觉和深度学习从多个角度对其进行了实现
位置社交网络的兴趣点推荐致力于帮助用户发掘潜在的偏好兴趣点,为用户提供个性化的兴趣点推荐。与传统推荐系统不同的是,位置社交网络的兴趣点推荐有丰富的上下文信息可以利用。其中,兴趣点的类别信息隐含着用户在某个时刻的活动主题,有助于对用户的个人偏好进行更精确的建模。然而,目前的研究大多没有充分利用兴趣点的类别信息。针对此问题,提出了一种基于地理类别信息的加权矩阵分解的兴趣点推荐算法GeoCaMF。该算法