论文部分内容阅读
根据场景含义对图像进行分类是图像理解研究的热点,是研究人类理解图像语义含义的重要方向之一。近年来,场景分类在图像检索、医学图像的识别、计算机视觉和机器人,对周围环境的感知等领域具有重要而现实的应用前景。面对日益庞大的数字图像,依靠经典的人工标注的方式对图像进行标注获取图像特征,然后对图像进行分类的工作量将变得难以承受,因此,研究更智能化的场景分类方式愈加重要。场景分类的过程包括:场景图像的特征提取、视觉字典的构建、分类结果预测等。在视觉字典的构建过程中,视觉字典合理容量的获取就成为了影响场景分类的精度与效率一个关键因素。针对当前完全依赖反复人为实验摸索才能获得视觉字典容量的现状,提出了一种使用AP聚类算法自动计算视觉字典合理容量的方法。这个方法避免了人为实验摸索去获得视觉字典容量,显著提高了算法的运算效率。本文的主要工作如下:首先,本文介绍了场景分类等相关的背景知识,以及它们的研究意义;分析了聚类算法和视觉字典容量获取的研究现状。其次,本文给出了场景分类的基本流程图。阐述了获取SIFT (Scale-invariant feature transform,尺度不变特征转换)特征的详细过程、K-均值聚类算法和AP (Affinity Propagation,吸引子传播)聚类算法,并且通过对随机产生的100个数据点的聚类结果进行对比,分析比较了两种聚类算法的优缺点。K-均值聚类算法的聚类中心数目要人为预先指定,而且初始聚类中心的不同会导致聚类结果的不同。而AP聚类则是通过算法的迭代自动获取聚类中心,而且在迭代的过程中,经过44次就趋于稳定。此外,还分析了AP聚类算法中的两个参数对聚类结果的影响。实验表明,在无先验知识的情况下,AP聚类算法要优于K-均值聚类算法。第三,本文对SIFT特征的提取方法进行了深入研究,给出了当前提取SIFT特征构建视觉单词的几种方法。通过实验仿真对比了使用均匀网格采样法和随机采样法提取场景图像SIFT特征的优缺点,实验结果表明,均匀采样法更适用于本文对场景分类的研究。第四,本文对提取得到的特征矩阵数据进行了预处理。然后分别使用K-均值聚类算法和AP聚类算法获取视觉字典容量,使用SVM进行场景分类。使用K-均值聚类算法获取了一条视觉字典容量和识别率之间的关系曲线。然后改变AP聚类中的参数-参考度,分析了参数对场景分类的影响。并使用IGP (In-Group Proportion,类内比例)指标对聚类效果进行了评价。第五,本文对实验结果进行了分析。首先,把用K-means聚类算法得出的识别率与视觉字典容量之间的关系曲线和通过AP聚类算法自动获取视觉字典容量进行了对比。实验结果表明:使用AP聚类算法能够较快的获取视觉字典容量,而且场景分类的识别率可以达到81%以上。而使用K-means聚类算法,得出的识别率与视觉字典容量之间的关系曲线并无规律,分类精度最高的视觉字典容量分别为350、750、1100和1350。本文还给出了几个重要的参数对实验结果的影响,通过IGP的值选择参考度的值,验证了AP聚类的有效性和得到的视觉字典容量的合理性。最后,通过混淆矩阵来评价分类的结果。第六,对本文所做的工作做出了总结,并给出了后续的研究建议。