论文部分内容阅读
数码相机、拍照手机等有成像功能的数码产品的普及导致图像的获取越来越容易,同时,计算机网络的普及、微博的流行以及Flickr等图像共享社区的成熟,使图像数据的传播越来越容易,这两点最终导致了图像数据的爆炸式增长,这就要求与之适应的图像数据的管理和理解能力。图像语义自动标注技术就是图像数据管理和理解的有效手段。本文在介绍了图像语义自动标注的一些基础知识和相关工作之后,主要围绕图像标注如何缩减语义鸿沟、提升标注效果和提高标注效率开展研究。主要研究工作及创新如下:(1)深入研究了图像自动标注方法中的跨媒体相关模型(Cross Media Relevance Model, CMRM),在它的基础上作了一定的改进:1)CMRM算法中,图像仅使用一种基于图像分割技术的blob表达,为了避开在自动标注过程中使用图像分割技术,以及表达图像不同方面的信息,我们使用了其他两种图像表达方式(基于图像的栅格化划分和图像的显著点检测)来共同表达图像;2)考虑标注词与标注词之间的共现关系,称这种共现关系为文本主题,使用标注词的多项式分布来描述文本主题,在图像标注过程中,联合不同文本主题下标注词的概率来标注测试图像,通过实验证明了这种改进提高了标注准确度。(2)提出了一种融合支持向量机和多伯努利模型的分层图像语义自动标注方法,该分层的图像语义自动标注方法首先利用聚类算法对所有训练图像进行聚类,将视觉上相似的图像聚为一类,每个聚类用SVM构建一个分类器,然后对一幅待标注图像,用分类器给待标注图像加上类别标签,类别标签对应的训练图像集合作为待标注图像的相似图像,作为MBRM模型的训练图像,来给图像作标注。在研究该方法的过程中,为了使得后续的标注结果更准确,我们在聚类过程中,改进了k均值聚类算法,考虑在聚类的每个类别中每维特征对该类别影响的不同,赋予不同的权值,最终提高聚类的准确度。