论文部分内容阅读
随着计算机技术和互联网技术的迅速普及与应用,每天都会产生大量的数字图像。面对海量的图像数据集,如何使计算机按照人类认知的方式对这些图像数据集进行高效地分类已成为了图像理解研究领域的一个热点问题。场景图像分类的方法多种多样,其中,利用LDA(Latent Dirichlet Allocation,隐狄利克雷分配)模型实现场景图像分类是目前研究的一个热点。基于LDA模型的场景分类方法的经典流程是:首先提取所有场景图像的SIFT (Scale-invariant feature transform,尺度不变特征转换)特征,并利用K-means聚类算法对场景图像的SIFT特征进行聚类,构建视觉字典,然后计算场景图像SIFT特征与视觉字典中单词的欧氏距离,生成词频矩阵,最后利用LDA模型学习并完成场景分类。由于采用K-means聚类算法获取视觉字典容量时,需要人为反复试验才能确定合理的视觉字典容量,效率极其低下。针对这个问题,本文提出采用AP(Affinity Propagation,吸引子传播)聚类算法自动获取合理的视觉字典容量,进而实现LDA模型场景分类,提高场景分类效率。本文的主要工作如下:首先,本文介绍了场景分类的背景以及研究意义;分析了场景分类的研究现状,并介绍了本文的研究工作和主要研究成果。其次,本文介绍了场景分类方法的相关理论。给出了场景分类的整体框架,阐述了场景图像SIFT特征提取的具体流程;列出了聚类算法的种类,详细介绍K-means聚类算法和AP聚类算法,并分析比较了这两种聚类算法的优缺点。第三,提出了一种基于视觉字典容量自动获取的LDA场景分类方法。利用SIFT算法提取场景图像的SIFT特征,然后分别使用K-means聚类算法和AP聚类算法获取视觉字典容量,构建视觉字典并生成图像SIFT特征与视觉字典中单词的词频矩阵,最后利用LDA模型学习潜在主题分布,实现场景分类。实验结果表明,本文提出的场景分类方法更高效。第四,本文对实验结果进行了分析。将基于K-means聚类算法的LDA场景分类方法与基于AP聚类算法的LDA场景分类方法的实验结果进行了对比。实验结果表明:基于AP聚类的LDA建模方法不仅能够较快的获取合理的视觉字典容量,而且场景分类的准确率可达到79%以上,而基于K-means聚类的LDA建模方法得到的分类准确率与视觉字典容量之间的关系曲线并无规律可循,分类准确率最高为78.10%。接着,研究LDA模型主题数对场景分类性能的影响,实验结果表明在主题数相对较少时具有相对较高的分类准确率;LDA模型中的两个超参数α和β对分类效率没有影响,超参数α的改变对分类准确率的影响呈现无规律性,而超参数β的增大,会导致分类准确率逐渐降低。最后,通过对图像场景分类结果的混淆矩阵的分析,结果表明:LDA模型对室内场景的分类准确率较低。最后,对本文的研究成果做出总结,指出本文主要的贡献,并给出了后续的研究建议。