【摘 要】
:
互联网信息时代的到来,人们与信息的关系发生了显著的变化。接触的信息日益增多,接触新的信息也变得日益简单,因此如何从海量数据中提取中心内容成为新时代背景下提高人们工作效率和生活水平的关键之一。自然语言处理下的文本摘要技术,即是解决该问题的重要技术。文本摘要技术要求基于海量语料训练模型,将长文本输入模型,模型输出高度概括原长文的文本摘要。在此基础下,可控文本生成又有着比较广泛的应用场景,本研究聚焦于长
论文部分内容阅读
互联网信息时代的到来,人们与信息的关系发生了显著的变化。接触的信息日益增多,接触新的信息也变得日益简单,因此如何从海量数据中提取中心内容成为新时代背景下提高人们工作效率和生活水平的关键之一。自然语言处理下的文本摘要技术,即是解决该问题的重要技术。文本摘要技术要求基于海量语料训练模型,将长文本输入模型,模型输出高度概括原长文的文本摘要。在此基础下,可控文本生成又有着比较广泛的应用场景,本研究聚焦于长度可控的生成式文本摘要技术研究。由于不同电子设备的屏幕大小不同,最佳的展示效果对应的文字数目也不一样。模型灵活生成适应不同电子屏幕的不同长度的文本摘要是一件值得深入探索和研究的工作。由于抽取式摘要格式比较死板不概括,灵活概括性高的生成式摘要成为了本次研究的重点。本课题将研究三种不同的长度可控的生成式文本摘要方案。本课题基于三种方法,分别在NLPCC17中文数据集和CNNDM英文数据集进行实验,并都成功生成了长度可控的摘要,rouge指标也基本符合预期。基于最后的实验结果,我们比较了三种方法的优劣,并分析了其中的深层原因。在NLPCC17中文数据集上,我们还人工标注数据500条目标摘要不同长度的数据,用于后续评价。首先,我们修改Transformer模型的位置编码,控制模型生成长度可控的摘要。由于Transformer模型在翻译等生成任务上的优越性,我们基于Transformer模型,尝试了修改其位置编码,引入目标摘要长度信息,使得模型在解码端将长度信息融入到最终的表示中。与传统的长度可控方法对比,指标提升较大。由于NLPCC17中文数据集较小,我们还尝试了迁移学习,先在CLTS PLUS数据集上训练模型,以提高模型在NLPCC17中文数据集上的效果。然后,由于修改大模型的内部的位置编码,不确定性较强。因此我们在不修改预训练模型内部架构的前提下,尝试引入关键词信息。我们选择从源长文本中,抽取目标摘要长度区间关键词,给予模型内容上的引导。基于Bart模型,将抽取的关键字作为Bart模型Encoder端的前缀,控制模型生成对应长度区间的摘要。我们尝试了几种不同抽取关键词的方法,关键词的质量对输出摘要质量影响很大。最后,考虑到非自回归模型在速度上的优越性,我们尝试了基于非自回归模型,生成长度可控的摘要。不同于传统的模型先预测摘要长度,与第二种方法类型,我们先抽取目标摘要长度关键词,之后将其作为解码器输入,并行解码生成摘要。又由于非自回归模型不易收敛,我们将训练一个老师模型,协助模型训练。此外,非自回归模型解码结果存在连续重复的现象,我们对连续的隐向量表示引入余弦相似度损失,使得模型连续隐向量表示差异尽可能扩大,降低重复现象。
其他文献
在农业生产当中,除草一直是一个非常影响作物产量的重要工作,现有的机械除草、化学除草等除草手段存在着非常消耗人力、对环境污染较大等各种问题。因此,在现代化的智慧农业生产当中,如何更加高效环保地进行除草一直是一个非常重要的研究课题。基于深度学习的计算机视觉技术的发展使得农田中的杂草识别定位变得更加精准,推动了机器智能除草的快速发展。基于自动识别定位杂草的机器智能除草技术能够自动按需喷洒农药,在解放人力
自改革开放以来,中国经济迅速腾飞,其中离不开制造业的迅速发展。目前我国制造业已经形成了门类齐全、独立完整的产业体系,但与世界发达国家先进制造业水平相比,仍然具有很大的距离,究其原因是中国制造业创新能力偏低。随着中国经济逐步迈入“新常态”,对我国经济发展质量提出了更高的要求,为此国家提出了“中国制造2025”战略,对于制造业企业来讲,进行制造业的创新与产业升级、构建制造业“国内国际双循环”的新发展格
目标辐射源定位技术在当今世界的电子信息战中扮演着重要的角色,在超视距目标探测领域,短波目标辐射源精确的位置信息具有举足轻重的地位。随着信息技术的不断发展,电磁环境逐渐变得复杂多变,军用雷达对于定位精度的要求越来越高。传统的短波目标辐射源定位方法大多是基于两步法的,此类方法的计算复杂度相对较低,因此适用于实际工程应用。但其也存在一些局限性,此类方法忽略了接收数据的内部联系,在第一步提取相关参数的过程
在全球范围内,肺癌正逐渐成为癌症致死的主要原因。大多数肺癌是由恶性结节引起的,肺癌早期诊断需要在胸部CT(Computed Tomography)图像中查找肺结节。近年来,计算机辅助诊断方法成为人工智能领域和医疗图像领域研究的热点,在智慧医疗和快速诊断方面有着实际应用价值。本论文基于胸部CT图像针对肺结节辅助诊断方法进行研究,主要包括肺结节检测、肺结节分割和肺结节良恶性分类。本文具体研究内容如下:
随着《中国制造2025》规划和“十四五”国家重点研发计划颁布和实施,3D打印技术在航空航天、汽车制造、智能装备、生物医药等领域发挥的作用将进一步提升。熔融沉积式(FDM)3D打印技术作为3D打印技术应用最为广泛的形式之一,受到越来越多研究人员的关注。目前对FDM型3D打印喷头的研究中,对于挤出口尺寸可调节的喷嘴研究有限。挤出口尺寸固定的喷嘴在打印时需经过点—线—面—体成型,打印速度慢,打印效率低。
随着工业互联网的发展,世界各国正在围绕工业制造进行数字化革命,加速构建智能化生产、个性化定制和协同生产等特征的工业新生态。领域知识库作为一种特殊且常用的数据库,高效率地构建领域知识库是目前研究的主要难点。然而在以往的研究中,大多数学者忽略了本体所能表达的详细内容。领域知识是复杂多样的,通过现有的本体描述方法无法较好的展示领域知识。另外工业互联网是全新的工业生态。工业机理在工业生产中十分常见,是包含
企业可持续成长是引领中国经济高质量发展的关键。由于疫情爆发、新兴产业冲击、盲目转型等诸多原因,企业成长速度明显放缓。面对复杂严峻的国内外经济环境,企业亟需培育成长新动能。现有研究仍主要聚焦于传统工业时代内外部因素对企业成长的影响,忽视了数字经济时代下,数字技术应用在企业成长中发挥的重要作用。数字技术应用作为企业成长的新动能,对企业成长产生重要影响。数字技术应用能够加快企业对市场动态的反应,帮助企业
得益于互联网的飞速发展,社交网络应用平台已经成为最大的舆情发酵中心,产生了大量反映社会舆论倾向的数据,这些数据文本立场明确、网络组织结构离散、内容特征稀疏,而现有舆情相关研究一般聚焦于文本情感、网络结构或用户属性。本文从立场群体出发,展开热点话题提取、文本立场检测和群体挖掘三方面研究以呈现舆情全貌,主要研究成果如下:第一、热点话题提取方法研究。现有方法不是操作流程繁琐,聚类与话题词提取任务分离,就
语音是人们日常生活中获取信息的重要途径,使用机器模拟人类发声输出语音信息在智能设备等诸多领域有着广泛应用。在语音合成领域中,先后出现了传统的波形切分重构的拼接合成方法、修改韵律声学特征的语音合成方法和使用隐马尔可夫模型的统计参数语音合成方法。但是由于这些传统合成方法具有对数据集依赖较强、合成语音具有明显拼接痕迹、合成系统流程繁琐的特点,难以在实际中投入应用。近年来,机器学习、深度学习的相关技术蓬勃
目前神经外科穿刺手术主要依靠医生的手感和经验实现,手术成功率有限。并且由于计算机视觉技术的迅速发展,三维重建技术逐渐成为一项成熟并应用广泛的技术,但是三维重建技术,在临床医学上的使用很有限。因此,本文将对双目视觉三维重建技术进行研究,实现对患者头部局部区域的体表三维模型重建。将其应用到神经外科穿刺手术中,配合三维治疗模型,为手术提供非接触式的定位与导航。首先模拟手术室环境,根据手术室中的无影灯照明