Hadoop平台下基于LSH的图像索引系统的研究与实现

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:legenddg
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
图像相似性检索是计算机科学中的一个基础问题,随着数据特征的维度升高,树型结构索引算法查找效率急剧下降,这就是很多近邻搜索遭遇的“维度灾难”问题,解决这一问题的一种方法就是采用局部敏感哈希算法(Locality Sensitive Hash,LSH)。LSH算法的性能对几个参数非常敏感,而这些参数必须由算法实现时选择。同时,传统的集中式图像检索系统当面对海量数据时就会暴露出性能瓶颈问题。本文针对上述特性及现存方案的一些不足,开展Hadoop平台下基于LSH算法的图像索引系统的研究。本文首先研究了图像检索的关键技术,分析了Hadoop平台的结构组成、基本特性等,基于LSH算法利用Hadoop云平台的Master-Slaver结构来存储海量图像数据,并以此作为分而治之地处理图像的依据,为海量图像提供有效的检索方法。这为全方位的分析和研究图像检索奠定了基础,为原型系统设计与实现提供了理论和技术方法。考虑到LSH算法中的参数与数据集有关,本文抽取数据集样本,观察数据集分布,建立数据集分布和参数的关系模型,提出参数自适应优化的方法,有助于提高召回率和准确率。针对LSH算法参数选择困难的特点,本文提出了一种LSH图像检索参数优化方法。首先建立面向图像检索的LSH算法的性能优化模型,给出其参数优化所对应的非线性最优化问题的一般形式,并且定义了新的优化目标函数;然后分析图像数据间的距离分布规律,发现了求解上述参数优化问题的快速方法;最后结合数值微分和二分查找提出相应的LSH参数优化方法。通过实验可以发现该参数优化方法能够提高运行效率,同时保持较高的精确率和召回率的调和均值F1。最后,本文设计实现了Hadoop下基于LSH算法的图像检索原型系统。该系统采用本文提出的参数自适应优化算法,实现了基于MapReduce的LSH并行算法,能对海量图像数据进行自适应、并行化检索。测试结果表明该系统较完整地实现了基于参数自适应LSH算法的图像检索的功能。本论文的研究成果可以作为分布式图像相似性检索和参数自适应进一步研究的基础,可以保持较高的F1,同时还能提高系统运行的效率,所以具有比较高的理论价值和实用价值。
其他文献
2型糖尿病是由胰岛素分泌相对不足和胰岛素抵抗引起的一种代谢疾病,以高血糖为临床特征。肝糖原在维持葡萄糖稳态中发挥重要作用,并且能有效维持血糖水平在正常的范围内。肝
目的:探讨前列腺素E1脂微球载体制剂(L ipo-PGE1),地塞米松对局灶节段性肾小球硬化模型大鼠的影响。方法:用单侧肾切除加1周后静脉注射多柔比星(5 mg/kg)的方法建立局灶节段
目前《红楼梦》的全译本有20多种,其中最有影响力的是二种英译本:一是由杨宪易夫妇所译的A Dream of Red Mansions,一是大卫·霍克斯(David Hawkes)和约翰·敏福德(John Minf
<正> 板栗是人们喜爱的果品之一,也是我省产量较大的一种干鲜果品,因不耐贮藏,保鲜期短,影响了它的经济效益。如把板栗制成罐头,则可长期保存。我们通过多次试验,总结出糖水
期刊
通过查阅历代本草文献,对古代医方中所记载的"大戟"、"红芽大戟"以及"红牙大戟"的名称和品种进行梳理考证。认为古代医方中的"红芽大戟"与"红牙大戟"不同,实为大戟科植物大戟
[目的] 通过对大鼠全脑照射条件下脑海马组织内IL-1β、IL-6和TNF-αmRNA在不同剂量和不同时间表达的观察,以探讨细胞因子在放射性脑损伤急性期表达的变化特征。 [方法]
变体机翼是一种能够根据飞行环境主动改变自身外形的新型机翼结构,通过合理的变形可以实现机翼气动外形的优化,进而提高飞行器的各种飞行极限。变厚度机翼作为变体机翼的一种
利用4种不同萃取特性的萃取头,对核桃分心木水提液中易挥发性成分进行萃取,并在HP-5(弱极性)和RTX-WAX(强极性)2种色谱柱上分离,采用顶空固相微萃取和气相色谱-质谱(gas chro
以浙江省312家制造企业为研究对象,采用回归分析方法,对企业R&D投入、技术创新能力与经济绩效之间的关系进行了研究。结果表明:R&D投入与企业经济绩效显著正相关;新产品产出能力和