论文部分内容阅读
随着多媒体技术、计算机技术,通信技术及网络技术的迅速发展和推广应用,人们已能运用各种手段大量地采集和产生各种类型的多媒体信息数据,研究如何组织、管理和利用多媒体信息具有重要的现实意义。多媒体信息中数据量最大最主要的一种就是视觉信息,因此视觉信息检索研究也就引起了人们极大地关注。对于非结构化的图像数据,传统的基于文字的检索方法效率很低,为此人们提出了基于内容的图像检索技术,并且取得了一定的进展。但是基于内容的图像检索遇到了一个棘手的问题,即“语义鸿沟”。“语义鸿沟”是指图像的低级视觉特征和高级语义特征之间的差距,由计算机计算出来的低级特征的相关性很难说明图像在语义层上的相似性,语义层上的相似性也无法证明低级特征的相关性。本文在解决“语义鸿沟”,提取语义特征方面作了一系列比较深入地研究,并提出了两种有效的解决模型。首先提出了一种基于“模糊语义相关矩阵”的图像检索模型,该模型充分利用了用户的反馈。“模糊语义相关矩阵”采用低级特征进行初始化,并在用户的检索中自动更新,从而在不同的用户使用中学习其检索日志,逐步提高系统的整体性能。而在用户的短期反馈中,我们利用用户给出的反馈信息在语义网络中聚类,快速捕获用户在语义上的检索企图。为了让系统学习的语义信息在语义网络中迅速扩展,系统还在检索中采用了多层语义网络检索。仿真实验采用了1000幅CORE CD的图像,证明了该算法在检索速度,反馈性能和长期学习上都有极大地进步。其次,根据用户习惯基于文字的检索,本文提出加入文字语义标签使系统具有文字检索和语义标签联想的功能。基于文字的图像检索常遇到如下问题:文字标注的主观性,不完全性和劳动强度大等。我们通过语义联想使得基于样图和文字的检索可以自然过渡,通过语义标签的自动扩展来解决语义标注的不完全性和劳动强度大的问题,通过文字标签网络及其自动更新来连接文字标签的关系,以解决标注的主观性。检索仿真实验采用了3360幅CORE CD图像进行检索实验,来证明我们在这一方向探索的有效性。