面向图像描述的深度神经网络模型研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:john20002000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,人工智能和机器学习迅猛发展,在计算机视觉、语音识别和自然语言处理方面均得到了广泛应用。图像内容的语句描述结合了计算机视觉与自然语言处理,完成从图像到自然语言的转换。它能够广泛应用到图像检索中,也能辅助残疾人在互联网进行交流。针对图像描述任务,与传统的方法相比较,深度卷积神经网络与循环神经网络相结合的模型能识别新图像中的新事物,并对其进行更为自然的语句描述。目前,该任务的经典模型神经图像描述的不足之一是其对图像细节信息的描述并不总是准确的。本文从研究方法和研究问题两个层面入手弥补上述不足,以使得描述更注重图像区域细节的表达。针对方法的层面,在图像描述常用的神经图像描述模型中加入注意机制,增强模型生成描述语句时对图像细节的偏重;针对问题的层面,在前人提出的图像区域描述任务基础上,对全卷积定位网络模型的网络层增加批归一化转换,加快模型的训练速度并提升区域检测和语句描述的准确度。本文完成的主要研究工作包括:(1)分析了目前已有的图像描述任务研究,特别是指出在谷歌的神经图像描述模型基础上改进卷积神经网络编码、循环神经网络语言模型、编码输入方法或者词嵌入方法等的现状。针对图像区域描述任务,阐述了以全卷积定位网络模型为核心开展研究工作的现状;(2)针对神经图像描述模型缺乏对图像细节信息的描述问题,提出一种使用注意机制改进描述语句的生成方式。先通过多示例学习提取图像的关键区域的标签词语,再将其词向量作为神经图像描述模型中的长短时记忆网络语言模型的隐含层的输入,使语言模型在生成描述的词语时能更偏向标签词语;(3)对图像区域描述任务的经典模型,提出批归一化转换其网络层,以此改善模型训练的收敛速度,同时提高模型检测区域和生成描述的准确度。在批归一化卷积层和长短时记忆隐含层中分别调整转换算法,使其适应网络层的结构,且不影响整个模型端到端的训练;(4)分别对上述提出的模型使用图像描述数据集和图像区域描述数据集进行训练,并分别使用相应的指标对实验结果进行评价。为了方便比较模型改进效果,重新训练了两个经典模型,并以此结果作为比较对象。最终从图像描述语句的准确率指标结果上表明两个模型的改进均有所成效,且后者收敛速度也明显占优。
其他文献
以粗梗稠李为研究对象,采用超声波为辅助手段、水为溶剂提取其色素,通过单因素实验和正交试验探究出色素最佳提取工艺,研究了光照、温度、酸碱度、金属离子、食品添加剂、氧
紫鹊界梯田位于新化县水车镇,涉及13个行政村,属雪峰山余脉的奉家山地段,总面积26万余亩,核心区域面积2万余亩,享有“梯田王国”之美誉,被批准为“国家级风景名胜区”、“国
丙型肝炎病毒(HCV)是导致慢性肝炎、肝硬化和肝癌的主要原因之一。目前,针对HCV的致病机制及病理发生过程的研究仍十分有限,也缺乏有效的保护性疫苗和治疗方案。目前治疗HCV主要
犬乳房炎是危害母犬的较为严重的产科疾病之一,引起犬乳房炎的病原微生物主要有链球菌、金黄色葡萄球菌、大肠杆菌和霉形体等,病原微生物可附着在乳房表面经乳腺管进入乳腺组织
蚁群算法和粒子群算法是最典型的2种群智能算法,各具特色和优势,已成功应用于诸多领域,但上述算法也存在一些缺陷。阐述了蚁群算法和粒子群算法分别与遗传算法、模拟退火算法、
<正>该书使用截至2016年的最新气候系统资料、采用最新技术分析方法、吸取最新气候科学研究成果,对变化了的中国气候进行再分析、再认识,是一部精准刻画当代中国气候、全面反
仿拟(parody),汉译“仿拟”,“仿化”,即仿照,有变化。它通常是对人们熟知的某个谚语、格言、名句乃至文章体裁适当地“改头换面”而构成一种颇为新奇的表达效果。仿拟是为使
目的探讨股骨近端髓内钉(PFN)治疗股骨近端骨折的疗效.方法采用PFN内固定治疗60例股骨近端骨折患者.结果术后随访55例,随访时间7~30个月(平均12个月).39例骨折接近解剖复位,疗
<正>哺乳期母犬乳房外伤是由于母犬给仔犬哺乳时,仔犬争抢吃乳咬伤或抓伤乳房或外界尖锐异物损伤乳房所引起。犬乳房炎是一个或多个乳头的炎症过程,可分为急性、慢性及囊泡性
会议
作为一个农村出来的孩子,深感教育对一个人的成长之重要性。好的教育可以给一个人提供一个新的起点,新的平台,甚至是完全不一样的人生……可是现实中在农村人口居多的中国,由