论文部分内容阅读
图像相似性检索是计算机科学中的一个基础问题,随着数据特征的维度升高,树型结构索引算法查找效率急剧下降,这就是很多近邻搜索遭遇的“维度灾难”问题,解决这一问题的一种方法就是采用局部敏感哈希算法(Locality Sensitive Hash,LSH)。LSH算法的性能对几个参数非常敏感,而这些参数必须由算法实现时选择。同时,传统的集中式图像检索系统当面对海量数据时就会暴露出性能瓶颈问题。本文针对上述特性及现存方案的一些不足,开展Hadoop平台下基于LSH算法的图像索引系统的研究。本文首先研究了图像检索的关键技术,分析了Hadoop平台的结构组成、基本特性等,基于LSH算法利用Hadoop云平台的Master-Slaver结构来存储海量图像数据,并以此作为分而治之地处理图像的依据,为海量图像提供有效的检索方法。这为全方位的分析和研究图像检索奠定了基础,为原型系统设计与实现提供了理论和技术方法。考虑到LSH算法中的参数与数据集有关,本文抽取数据集样本,观察数据集分布,建立数据集分布和参数的关系模型,提出参数自适应优化的方法,有助于提高召回率和准确率。针对LSH算法参数选择困难的特点,本文提出了一种LSH图像检索参数优化方法。首先建立面向图像检索的LSH算法的性能优化模型,给出其参数优化所对应的非线性最优化问题的一般形式,并且定义了新的优化目标函数;然后分析图像数据间的距离分布规律,发现了求解上述参数优化问题的快速方法;最后结合数值微分和二分查找提出相应的LSH参数优化方法。通过实验可以发现该参数优化方法能够提高运行效率,同时保持较高的精确率和召回率的调和均值F1。最后,本文设计实现了Hadoop下基于LSH算法的图像检索原型系统。该系统采用本文提出的参数自适应优化算法,实现了基于MapReduce的LSH并行算法,能对海量图像数据进行自适应、并行化检索。测试结果表明该系统较完整地实现了基于参数自适应LSH算法的图像检索的功能。本论文的研究成果可以作为分布式图像相似性检索和参数自适应进一步研究的基础,可以保持较高的F1,同时还能提高系统运行的效率,所以具有比较高的理论价值和实用价值。