基于深度卷积神经网络的图像分类和语义自动标注研究

来源 :云南师范大学 | 被引量 : 0次 | 上传用户:pppp7799
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术以及移动终端设备的不断发展,图像资源成几何倍数与日俱增,庞大的图像资源对当前的图像识别分类等计算机视觉技术提出了迫切的要求。很长一段时间,图像识别主要通过基于文本的方式进行,但是由于图像所包含信息的复杂性及“语义鸿沟”的存在,仅仅依靠基于文本的方式还无法达到高识别准确率的要求,面对这些难题,图像自动分类和图像语义自动标注技术应运而生,而如何能够有效地提高图像识别效率及准确率成为了该技术的关键。为此,本文主要做了如下工作:(1)本文采用深度卷积神经网络技术以及GPU并行计算技术,实现对目标图像的分类识别。通过在不同规模大小的数据集上进行实验,详细分析对比了当前较为经典的深度卷积神经网络模型的识别效率及识别准确率。(2)本文通过对比分析当前网络模型后,针对其存在的学习效率低、识别准确率差等问题,提出了一种改进的深度卷积神经网络模型。通过在ImageNet、Cifar-10和Mnist数据集上进行实验证明,相比传统的CNN网络模型,本文所提出的改进网络模型能够以更小的网络深度和更高的执行效率大幅提高分类的准确率。(3)本文在基于改进的深度卷积神经网络模型的基础上,继续对改进的模型进行进一步的优化和调整,使其能够适应多标签分类问题,对目标图像实现快速精准的多分类识别。通过在Corel5k和PASCAL VOC 2012数据集上的实验表明,基于改进网络模型在多标签分类中具有较高的准确率,可以有效实现对目标图像的自动语义标注。
其他文献
停车事件检测是高速公路监控系统的重要组成部分。与其他停车事件检测算法相比,基于Haar-like+Adaboost的目标检测算法具有目标分类能力较好、所需图像样本较少,且特征训练不
视觉SLAM已广泛应用在仓储物流、AR/VR、无人机、自动驾驶等领域,目前已有的视觉SLAM方法多是假设物体静止,或是将场景中的动态特征当作异常值剔除。本文针对实际环境中动态
随着大数据时代的到来,云存储很好的解决了数据存储与共享问题,但存储在云中的数据频繁遭到黑客攻击,泄露数据的机密性与隐私性.为此,可搜索加密概念的提出实现了在不解密密
随着互联网信息时代的发展以及电脑和手机的普及,人们可以随时随地把生活或者娱乐图像上传到网络中,导致图像呈现出爆炸式增长。因此,如何从大量图像中准确筛选出目标图像已
随着市场竞争逐步加剧,现代企业所处的市场环境发生了深刻的变革,企业竞争越来越强调基于客户需求的竞争,为适应市场需求,满足客户的个性化定制,半导体等制造业中大都采用多
人脸表情作为一种传达情绪状态和意图的主要形式,在人际关系中提供了重要的非语言交际线索。随着人工智能和机器学习等技术的兴起,现有的人机交互方式已经无法满足人类的需求
信息技术的发展对带宽更大、速度更快、精度更高的模数转换器(Analog-toDigital Convertor,ADC)提出了更高的要求,为了解决传统电子ADC采样率难以实现进一步提升的难题,光学A
随着太赫兹(THz)波在安全检查、生物医学、无线通讯等领域的广泛应用,高功率、高能量的THz辐射源的应用需求也大大提高。基于受激电磁耦子散射产生THz波具有高功率、宽调谐、
室内人体感知技术在人员检测、室内定位、运动分析和安防检测等领域有着广泛的应用。由于无源检测的普适性和低成本,利用商用无线信号(Wireless Fidelity,Wi-Fi)进行人员检测
在北方的严寒地区的钢筋混凝土建筑物受到气候、温度的影响时常会遭受冻融所带来的损伤,最终会发生冻融破坏,此外,钢筋结构在潮湿的气候当中也会发生锈蚀,这将对结构安全稳定