面向中文的图像描述生成方法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:noegen
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
图像描述生成是计算机视觉与自然语言处理的交叉任务,该任务的完成需建立在图像理解与抽象推理的基础上,巨大的挑战吸引了越来越多研究者的关注。它的应用前景不仅局限于视障助手等辅助性任务上,而且有望在信息检索上发挥巨大效用。然而,现有的研究主要关注英文句子的生成,围绕着英语语种已经孕育出了丰富的生态,包括高质量的数据集、成熟的评判标准以及前人的优秀工作。考虑到世界上有超过一半的人使用非英语交流沟通,为了增加图像描述生成技术的普惠性,本文的研究内容就是面向中文的图像描述生成。面对目标语言上数据集缺乏的问题,本文的主要解决思路是借助现有成熟的自然语言处理技术,基于中心语言数据集增广目标语言数据集,低成本且快速获得目标语言上的可用大数据集,为深度学习的应用奠定基础。具体地,以英语中心语言,而目标语言则为中文。由于某些评判标准的具体实现依赖英语的独有特点,在做了适当取舍后,我们完成了从英语到中文的基于朴素比较的评判标准的迁移工作。目前有两种方法获得图像的中文描述句子,一种是非端到端模型,仅在英语模型末端采用机器翻译来获得中文句子;另一种是端到端模型,在数据集上应用机器翻译来构建目标语言上的数据集,然后采用端到端的方式训练中文模型,直接输出中文句子。我们使用基准模型在增广数据集上进行了实验。实验表明,端到端模型要显著优于非端到端模型。然后通过观察发现机器翻译的结果会有语法或语义上的错误,而这会导致模型学到错误的知识。为了使得生成的句子更加符合中文的表达习惯,我们训练了Native语言模型并以其为奖励函数,使用策略梯度的方法优化模型的生成策略。定性分析表明,优化过后的模型生成的句子更加符合人们的日常经验。最后,通过对实例的分析我们发现句子中的目标不够丰富且目标之间的关系常有错误,然后我们借助目标检测、属性分类和关系检测技术,针对图像动态地构建场景图,然后在场景图的基础上使用GCN模块编码上下文感知的特征向量,并在解码器一端使用分层注意力机制自底向上地聚合图像特征,隐式实现了视觉概念和语言实体的对齐。实验表明,视觉语言对齐的方法大幅提升了模型的效果。
其他文献
暴力检测在音视频检测领域具有十分重要的地位,有着重大的研究意义。在安防领域快速检测出暴力行为,有利于减少人员伤害。在体育竞技方面检测出暴力行为有助于比赛公平性。但是随着互联网和流媒体的发展,人工检测无法满足速度的要求,这就需要一种更好的方法来完成暴力检测。当下大多数暴力检测主要在视频方面,检测种类单一,忽略了其他模态的暴力检测,导致暴力检测率不高,因此需要一种结合多种模态特征的暴力检测技术。首先,
本文的研究课题是《面向流行病预警的声音数据聚类方法研究》,本文的主要研究目的是希望通过人群级别的咳嗽声音数据的搜集与分析处理,预警某一场所呼吸道流行病爆发的趋势。具体实现场景为,于某一个人员密集场所(如实验室,教室)布置麦克风,采集到带有不同人的咳嗽的音频信号,通过音频聚类的方法精确数出一段音频信号的咳嗽人数,通过这个指标来预警呼吸道流行病爆发的趋势。本文主要研究内容为基于研究目的构建的系统,系统
学位
学位
越来越多的企业将社会责任纳入公司战略,并使其成为实现可持续竞争优势的重要工具和与政府等利益相关者沟通的桥梁。企业承担社会责任已经从一种慈善方式演变为一种战略商业需求,一方面,企业可能基于自主性行为投资社会责任活动获取竞争优势;另一方面,企业可能被动呼应承担社会责任,这不仅是因为迎合证监会等监管机构公布社会责任报告的要求,还因为管理者在做出与企业社会责任相关的决策时会参照其他企业,为了维护“面子”而
学位
世界卫生组织2020年公布的数据显示,癌症是全球第二大死因,全球大约六分之一的死亡由癌症造成。许多癌症的临床诊断主要通过组织切片的病理学评估。近年来,中国新发癌症病例逐年增加,而病理医生的培养周期较长,这就造成了病理行业供给严重不足。随着深度学习技术的快速发展,借助计算视觉技术助力病理诊断称为可能。细胞核的分割是病理诊断的重要步骤,因为癌症的分类与分级高度依赖于核分割的质量。本文结合病理图像特点,
随着中国经济迈向高质量发展阶段,企业之间的竞争早已转向产业链之间的角逐,纵向一体化战略也面临着新的机遇和挑战。纵向一体化战略通过将产业链不同环节的信息、技术和资源进行整合,使企业获得竞争优势的同时也会给企业带来运营和管理等方面的困难。因此,纵向一体化战略的实施直接影响到企业的生存发展。目前,纵向一体化战略在企业绩效、效率等层面的研究文献已较为丰富,但却忽略了纵向一体化战略更深层次的影响。作为宏观层
学位
在城乡融合发展和乡村振兴战略的背景下,农村居民点功能呈现出多样性和多元化,深入研究农村居民点多功能演变特征与优化机制,是实现农村土地可持续利用的关键。针对我国农村居民点功能结构失衡、定位模糊且研究方面存在理论和方法缺陷的状况,本文以北京市平谷区为研究区域,从农村人地系统互动的角度,综合运用调研访谈、多因素综合评价以及空间关联分析模型等方法,在明晰农村居民点多功能性理论内涵的基础上,构建多元数据支持