基于Spark的海量视频处理与人脸识别应用

来源 :广东工业大学 | 被引量 : 2次 | 上传用户:vk2046
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据和人工智能时代的来临,国防安全、金融商业、交通管理等诸多应用领域都朝着智能化,大数据与云计算方向发展。无论在哪个领域都会产生海量的数据,使用传统数据处理技术对海量数据处理、分析效率非常低,即使使用Hadoop核心之一的分布式计算框架Map Reduce来处理、分析效率也偏低。因此,需要新的海量数据处理、分析方案来解决海量数据处理、分析效率低的问题。新方案主要架构,包括Spark大规模数据计算、Hadoop HDFS和HBase分布式底层存储以及消息队列Kafka等。本文是基于新的方案技术和Open CV库对海量视频数据进行处理以及人脸识别应用。实质是利用Spark分布式计算框架对海量视频数据进行并行计算处理,并基于OpenCV视频图像处理库自定义Java处理过程进行人脸识别。首先通过前端设备采取视频数据缓冲到Kafka缓冲队列中,并以视频关键帧提取方式将视频数据转化为视频帧,其次基于Open CV处理库,将视频帧图像进行图像预处理,增强图像人脸识别过程中所需的属性信息,并通过人脸检测筛选人脸图像和非人脸图像、人脸姿态优选筛选好的人脸图像,剔除无用的图像。以此为基础上进行SIFT人脸特征提取,并将提取的人脸特征描述存储在HBase中以及进行人脸数据库收集。最后将待测的人脸图像中提取到的特征向量跟人脸数据库的数据进行匹配并将结果返回给用户。新的处理方案能大大提高海量数据的处理、分析效率,且拥有诸多优点:架构更加灵活、扩展性强,为系统后期扩展和迭代升级带来方便,也为后期的业务扩展和管理提供了便利;基于HDFS和Spark的特点,系统集群可以搭建在廉价通用性的机器上,降低了集群的搭建成本和后期系统维护成本;数据资源存储形式具有多样化,可结构化的,半结构化的和非结构化的数据形式,并基于资源数据映射方法进行有效的资源管理;基于分布式Spark并行计算技术能高效快速处理传统CPU难以实现的算法。
其他文献
<正>母猪妊娠期的营养非常重要,适宜的营养水平能保证正常的胚胎发育、仔猪初生体重,出生后生活力旺盛;母猪分娩后的泌乳性能良好,因而仔猪日增重高。1能量母猪存在妊娠合成
当今社会,有三种关键的电梯控制系统,分别是采用硬件接线来实现操控的继电器操控体系和应用计算机参与获得一定操控目的的计算机操控体系以及可编程逻辑器件FPGA/CPLD的操控
随着汽车工业的发展,道路交通运输给人们的出行带来了巨大便捷,与此同时引发的交通事故已成为全球安全问题,因此,安全辅助驾驶、车道偏离预警、自动车辆导航以及自动泊车系统
目的:慢性阻塞性肺疾病(chronic obstructive pulmonary disease,COPD简称慢阻肺)和支气管扩张(bronchiectasis)是常见的慢性呼吸系统疾病,两者均可导致肺组织的结构破坏、肺
<正>人性化设计以以人为本和核心,注重人的存在感,最大限度的实现人与物、人与环境等的便利和融合,使人在自己居住的地方能够得到最大的放松与满足。近年来因为经济的高速发
近些年来,暴力冲突性事件频发,数据分析显示这些事件大多出于报复动机的驱使,报复的反向为宽恕,研究宽恕有助于分析避免报复的方法。本文以宽恕为主题,从人际关系差序格局的角度探讨了人际关系的亲疏远近和地位高低对情境性宽恕的影响,以及被冒犯者知觉到的伤害程度和愤怒程度在这种影响中的作用机制。本文包含两个研究,研究一运用问卷法和故事法,通过启动被试对人际亲疏的感知,验证了隐私伤害、言语伤害、违约伤害下,在面
随着国民经济的快速发展,人们对电能质量的要求越来越高,设计一款结构性能优良同时又具备良好的动态和静态性能、带载能力强的逆变电源,得到越来越多的学者关注。纵观逆变电
随着科学技术的进步,计算机网络的不断发展,大量的计算机病毒也不断出现,并大量破坏和入侵用户计算机中。因此,应该建立计算机病毒传播模型来分析传播的实际规律,从而能够有
根据中国互联网络信息中心报告显示,截至2016年12月,中国网民规模达7.31亿,互联网普及率达到53.2%,互联网行业整体向规范化、价值化发展。台式电脑、笔记本电脑的使用率均出
磺酰脲类除草剂具有超高效、低毒和高选择性等特性,是除草剂中品种最多,销售额仅低于草甘膦等氨基酸类除草剂的第二大类除草剂品种。此类除草剂主要应用于水稻、玉米、小麦和