Spark框架下的人脸图像检索系统的设计与实现

被引量 : 0次 | 上传用户:freebernie
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大数据时代数据呈爆炸式增长,海量数据的处理显得愈发重要,因此多种大数据处理框架应运而生,如Hadoop,Strom,Spark等。在图像处理领域,人脸识别技术经过几十年的研究日渐成熟,正在逐步走向市场。基于大数据的图像检索作为一个新的热门课题,已经是高校、科研机构和公司的研究重点。海量图像数据检索面临两个技术难点:一是怎样利用算法降低整体计算量;二是如何基于分布式架构合理利用硬件资源提高计算效率。针对第一个难点,本文首先利用PCA算法将128维的SIFT特征降至32维,其次将Canopy算法与K-Means算法相结合对降维后特征矩阵中的行向量进行聚类,并统计聚类后各特征矩阵的词频向量,再将所有图像的词频向量输入到Spark MLlib的LDA模型中,接着将图像特征矩阵聚为K类。最终,用户图像的特征矩阵只需与同类别图像的特征矩阵进行相似度计算。针对第二难点,本文利用集群分布式计算的特性来提高计算效率。本系统基于分布式架构的HBase数据库和Spark框架,实现了分布式的并行运算。同时,系统的核心算法Canopy、K-Means、LDA、欧式距离等都是基于Spark框架实现的并行化算法,能高效的运行在Spark框架上。本文针对大数据环境下人脸图像的检索问题,设计并实现了基于Spark框架的人脸图像检索系统。本文完成的主要工作如下:1.改进了 Canopy和K-Means算法,并基于Spark框架实现了改进的算法。将改进的两种算法分别与Hadoop机器学习库Mahout或Spark机器学习库MLlib的同类算法进行对比。实验显示改进的算法在Spark框架上取得更高的计算效率。2.检索系统的特征匹配子系统分别用Spark和Hadoop机器学习库中的算法进行了实现,并对两种实现方案的检索性能进行了实验对比。实验显示在人脸图像快速检索方面Spark框架比Hadoop框架具有更优秀的计算性能。3.设计并实现了基于Spark框架的人脸图像检索系统。该系统由三个子系统组成:数据库子系统、用户交互子系统、特征匹配子系统。
其他文献
钢筋混凝土异形柱框架结构是近年来才逐步推广的一种新型的结构体系,由于异形柱构件截面不同于矩形柱,所以在结构承载力方面和抗震方面有其复杂性和特殊性。由于异形柱框架结
<正>这些年来,随着经济社会的日益发展、改革开放的不断深入和社会主义法治建设的逐步推进,在党和国家领导下,各级司法行政机关、各地律师协会和广大律师积极开展政府法律服
随着世界经济全球化、一体化的快速发展和市场竞争的日益加剧,提升建筑企业核心竞争力日益显得重要。然而,在现实经济活动中合作伙伴关系直接影响到建筑企业核心竞争力的提升
目的探讨氨溴索气管内灌洗加肺表面活性物质(PS)治疗新生儿胎粪吸入综合征(MAS)的临床疗效。方法将75例新生儿MAS随机分为两组,对照组37例行常规治疗,观察组38例在常规治疗基
练习课是提高小学数学高年级阶段学生数学素养以及数学能力的有效措施。小学高年级数学教学是整个小学阶段教学的重要阶段,是促进学生小学阶段数学能力与初中数学知识结构进
新媒体电影是近些年来伴随着新媒体的迅猛发展而兴起的一种电影类型。新媒体电影同传统电影一样,有一套严格的拍摄、发行、上映流程。与传统电影不同的是,它的拍摄器材、播放
党校教育是中国特色社会主义教育事业的重要组成部分。近些年,作为一支独特的教育力量,党校为党和国家培养了一大批忠诚于马克思主义道路、坚持中国特色社会主义制度、会治党
密教六字真言源于梵文,亦称六字大明咒。密教相传是大慈大悲观世音菩萨咒,象征一切诸菩萨的慈悲与护持。本文通过回顾田野实物、佛教文献和民间故事,并总结和分析了饶宗颐、
井冈山斗争时期,是中国共产党领导下的优抚工作的起源时期,这一时期的优抚工作包括实行军队内的民主主义、改善士兵生活、优待伤病员等基本内容。它既为井冈山革命根据地的建
<正>开腹阑尾切除术是常见的外科术式,因麻醉、手术创伤等原因,患者术后胃肠蠕动恢复慢,暂时性胃肠动力低下,易出现腹痛、腹胀、恶心、呕吐、无自主排气与排粪及肠鸣音减弱等