论文部分内容阅读
随着社会化媒体分享网站(如Flickr,Facebook和YouTube)的发展,人们将越来越多的观光图像和视频分享到互联网上,并被很多的人浏览和使用在这些观光图像中,地标建筑图像经常能够吸引人们的眼球。由于网络上的绝大多数地标建筑图像是没有被标注过的,因此互联网用户在搜索这些图像的时候,就要付出很多的时间和精力。对这些未标注的地标建筑图像进行分类和识别,能够有效地解决以上我们提到的问题。
近年来,随着地标建筑信息的分析与人们的生活日益相关,地标建筑相关研究逐渐成为一个热点研究问题。目前,有些传统的图像分类和识别方法被用在地标建筑图像上,然而,在实际应用中,传统的图像分类和识别方法以及分类识别结果表现方法由于地标建筑本身的唯一性和多样性(图像被拍摄时的光照,角度,镜头拉伸以及遮挡情况的不同,使同一个地标建筑在不同的图像中的形态可能会大不一样),使得传统的图像分类和识别方法很难获得正确的分类和识别结果。此外,在地标分类和识别结果的展示上,传统的方法仅能展示二维图像或者文本,很难给用户展示生动的地标建筑的形象。
为了解决以上的问题,本文提出了一种利用三维模型进行地标建筑分类和识别的方法,并最终利用三维纹理模型对识别的结果做了展示。主要的研究工作如下:
1)我们提出一种降低三维重建过程计算复杂度的方法。当前的很多方法都是构建整个场景的三维模型。然而,大多数情况下,人们往往仪关心那些引起他们注意的区域。在用这些方法构建三维模型的过程中,大量的时间被浪费在重建那些人们不感兴趣的区域上。我们通过获得每张图像的视觉关注区域,然后仪利用视觉关注区域之中的特征信息来重建三维模型,从而节约了三维重建中的计算量。我们提出的利用视觉关注度来降低三维重建计算量的方法在视频和图像的三维重建中都能适用。
2)我们提出了一种通过二维图像创建三维模型以及三维模型到二维图像投影的方法来提高地标建筑图像的分类结果的方法。我们首先从标注好的图像集合中,选出代表性图像来进行地标建筑的j维重建。然后,重建好的三维点云模型被投影到代表性图像中,并获得这些代表性图像中的地标建筑区域。我们利用这些地标建筑区域中的尺度不变特征(SIFT)来为每一个地标建筑创建一个K维搜索树。通过比较未标注的图像与每个K维搜索树之间的匹配数量,我们将未标注的图像分类为拥有最多匹配数的地标建筑中。最后,对于卜述的分类方法,我们又提出一种改进方法,通过将每个地标建筑中的热门区域(经常被人们拍摄的局部区域)图像添加到训练数据中,进一步提高了地标建筑图像分类的准确率。
3)我们提出一种直接利用二维图像和三维模型进行匹配的地标建筑识别的方法,并将三维模型作为识别的结果进行展示。此方法分为离线和在线两个模块。离线模块中,我们为每一个地标建筑创建一个三维模型和一个三维识别器。在在线模块巾,我们为每一张被识别出来的图像,提供一个三维纹理模型和对应于这张图像中的地标区域的三维模型。我们的方法提高了地标建筑图像识别的效果,并且为用户展示了一个更加生动的三维模型。
4)我们将提出的地标建筑识别方法应用在手机端地标建筑搜索中。我们提出在手机端仅将图像压缩到较低的分辨率,传输到服务器端处理,而不是在手机上提取特征,从而减少手机端的计算量,节省手机电量和流量消耗。存服务器端,与之前的方法不同,我们不是为每一个地标建筑构建一个三维识别器,而是将所有的地标建筑特征融合在一起,构建一个地标建筑三维模型。最终,于机端拍摄的照片的识别结果能够以三维模型的方式,返回到手机端。
总的来说,本文的研究工作,对于地标建筑的分类识别和结果展示做出了有益的探索。