论文部分内容阅读
随着数据采集制作设备的日益普及,人们越来越方便地生产图像、图形、音频、视频、动画和三维模型等多媒体数据,这些多媒体数据具有异构、非结构化、高维和动态变化等特征,给后续处理例如分类、聚类、挖掘、理解和查询检索带来巨大困难。基于内容检索方法的出现为多媒体数据查找开辟了一条新的途径,而高维数据索引是加速相似性检索的关键技术之一,也是多媒体和数据库领域的研究热点和难点。本文就是对高维索引进行深入研究,并取得了一定成果。主要包括以下两个方面:1.对基于高维索引结构M-tree的KNN查询算法和范围查询算法的近似化,分别提出基于M-tree结构的AKNNQ算法和ARQ算法。M-tree结构虽然使用过滤机制过滤不必要的分支,大大减少了计算量,但当维数较高时,性能还是急速下降。而近似检索则被认为是适合高维的算法,所以对基于M-tree的查询算法的近似化能更好的适用高维数据,以精度换取效率。ARQ算法扩展了查询的过滤的条件,更大程度上的过滤分支,减少不必要的计算。AKNNQ算法也改进的过滤条件,还对最小优先子树按某种规则排序,更快的收敛动态的查询半径,最后通过分析实验数据,证明了近似检索算法的有效性。2.对PI近似高维结构中心点选取方法的优化和选取数量的确定,提出维数区分方法以高效的查询。PI高维索引结构预计算数据集对于锚对象(permutant)集距离顺序,对数据库进行预测规整,只需精确计算少量数据就到得到大部分的正确结果。其中permutant的选取很大程度上影响了索引结构的性能,而PI结构中的随机选取方法并不能保证效率的可靠性,而permutant选取的数量也是影响效率和准确率的一个很大因素,permutant选取越多准确率越高,但同时其效率大大下降,而选取的越少效率提高了,但其准确率又得不到保证。本文就针对这两个问题作了研究,基于最佳的permutant两两之间的距离尽可能远的假设提出了permutant的几种选取方法,并在实验中验证了不同选取方法的可行性和有效性。最后提出了维数区分方法,得到最优的permutant选取数量,实验数据表明此方法在得到一个可接受的准确率下,确保选取的permutant数目最少,效率最高。