融合目标语言句法知识的非自回归神经机器翻译

来源 :昆明理工大学 | 被引量 : 0次 | 上传用户:bg8nij
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,流行的自回归(Autoregressive)神经机器翻译模型在翻译性能上已经取得了巨大的成功,但这些模型一般解码速度比较慢。而非自回归(Non-Autoregressive)神经机器翻译模型能很好的解决解码速度慢的问题,通过并行解码一次性生成所有译文中的单词,这就可以极大地提升翻译速度。但由于非自回归神经机器翻译模型是独立翻译每个单词,因此在翻译过程中缺乏上下文信息的考虑,译文生成过程中的重复翻译和漏翻译等问题显著,从而在翻译质量上与自回归模型有较大的差距。为了提高非自回归神经机器翻译模型的翻译性能,本文提出了融合目标语言句法知识的非自回归神经机器翻译模型,该模型在非自回归模型迭代解码过程中引入目标语言的句法知识来约束译文的生成,从而提高翻译质量,本文从以下几个方面进行了研究。(1)提出了融合目标语言成分句法的非自回归神经机器翻译模型。独立建模的方式使得模型缺乏目标语言的上下文信息,而成分句法能为独立建模的非自回归模型提供目标语言的短语结构上下文信息。于是本文模型通过成分注意力矩阵对目标语言的成分知识进行建模,然后将成分注意力矩阵与解码器中自注意力矩阵以相乘的方式进行融合。从而把目标语言的成分句法引入到非自回归神经机器翻译中来约束模型的解码,在IWSLT14En-De和中-越数据集中德-英、中-越的翻译方向上第一次迭代得到了1.04、0.89的BLEU值提升,相比于基线模型有显著的提升。(2)提出了融合目标语言依存句法的非自回归神经机器翻译模型。独立建模的方式使得模型缺乏目标语言的上下文信息,而依存句法能为独立建模的非自回归模型提供目标语言的词依赖关系上下文信息。于是本文模型通过两个矩阵分别对目标语言依存关系的父节点和子节点进行建模,建模邻接矩阵既不依赖于外部依存分析器,也不需要训练额外的模块,而是通过计算词嵌入相似度学习每个输入词的父节点,构建出父邻接矩阵和子邻接矩阵。将父邻接矩阵和子邻接矩阵通过与解码器自注意力矩阵以相加的方式,将目标语言的依存句法知识融合到模型中,在IWSLT14EnDe和中-越数据集中德-英和中-越的翻译方向上第一次迭代得到了0.74和0.49的BLEU值提升,相比于基线模型有显著的提升。(3)提出了融合目标语言成分和依存句法的非自回归神经机器翻译模型。独立建模的方式使得模型缺乏目标语言的上下文信息,成分句法包含短语结构以及短语间的层次关系,关注短距离词与词的成分信息,依存句法包含词与词之间的依赖关系,可以关注到长距离词与词之间的依赖信息,于是本文模型通过注意力机制融合成分注意力矩阵和依存邻接矩阵,将目标语言的成分和依存句法信息同时融合到模型中,使得神经机器翻译模型能够获取目标语言短距离和长距离的句法信息,在IWSLT14En-De和中-越数据集中德-英和中-越的翻译方向上第一次迭代得到了1.61和1.40的BLEU值提升,相比于基线模型有显著的提升。
其他文献
面向查询的新闻多文档自动摘要技术可以从根据查询返回的相关新闻报道文档集合中,快速地抽取出能在一定程度上满足用户查询信息需求的摘要,提高对信息的获取和利用效率,是自然语言处理领域中较为重要的研究方向之一。针对当前面向查询的多文档抽取式摘要方法研究中存在的不足,同时结合新闻文本具有的新闻时序特征,本文进行了如下研究工作:1.基于层级BiGRU+Attention的面向查询的新闻多文档抽取式摘要方法针对
学位
风能和太阳能作为广泛使用和发展速度最快的新能源,并且因其无污染和可持续的优点,受到研究者高度的关注。目前风力发电和光伏发电是风能和太阳能主要的开发利用形式,然而由于风能和太阳能都具有波动性、间歇性和不可控性等特征,使得风力发电和光伏发电难以控制和调度,这便给电网的并网运行和优化调度带来一定程度的影响,也会危害到整个电力系统的安全经济运行。因此,对风力发电系统和光伏发电系统进行准确的功率预测是十分重
学位
风能作为一种天然绿色环保的新型可持续再生能源,取之有不尽、用之而不竭,近年以来得到了广泛利用。风力发电不仅成本低廉,而且对环境的污染相对较小,是一种值得提倡的发电形式。作为风机中的主流机型之一,双馈风机安装灵活、体积小、技术成熟,与其他类型的风机相比,成本较低。但双馈风机的结构、原理、控制方式都有别于传统异步电机,其与电网并联运行时,系统是否能够安全稳定运行是首要考虑的问题。双馈风机就大容量的电网
学位
2021年我国提出加快构建适应高比例可再生能源发展的新型电力系统,积极推动经济绿色低碳转型和可持续发展政策措施。在新型电力系统的建设中,配电网作为电网分配电能的重任,但相较与高压输电线路,配电网线路分支繁多且较短,网络结构复杂且庞大,外部环境干扰大且种类多,用户用电设备情况难以预测等特点,导致配网故障检测、识别困难,当前新能源加入,使得配电网故障检测、识别难度进一步增大。一般故障分为潜伏性故障和突
学位
电力储能技术作为一种提高可再生能源渗透率、推动电力系统低碳化转型、维持高比例可再生能源电力系统供需平衡、助力我国早日实现双碳目标的关键技术,日益受到电力系统中发电侧、电网侧及用户侧群体的关注。为了推动储能领域快速发展,国家能源局、发展改革委发文提出于2025年实现储能从商业化初期转向规模化发展的目标,此外,积极支持用户侧储能的多元化发展,鼓励用户探索建设共享储能,适当拉大峰谷价差,为用户侧储能开辟
学位
近年来,随着国民对生态环境重视程度与日俱增,工程环境评价已经成为了一个工程合格与否的关键性指标。鱼道保证了河流在空间上的连续性,对众多水生生物的迁徙、基因交流以及能量传递等起到了不可代替的作用,被公认为是补偿河流机制的重要手段。而很多地区受地形条件的限制不能够布置常规形式的技术型鱼道,为此本文对小长宽比下池室水流结构进行了研究。采用flow-3D流体计算软件中的RNG k-ε湍流数值模型,对共计3
学位
我国风能和光能资源丰富,清洁能源装机规模持续增长,加快风电和光伏发电的消纳与利用是当前实现绿色可持续发展的重要途径。风力发电和光伏发电在送电过程中,光伏功率的不稳定性、并网电压的波动性以及风、光电场经串补电容并网引发的次同步振荡等问题都很大程度上限制了清洁能源的高质量利用。针对上述问题,本文主要就光伏最大功率跟踪、并网逆变器控制以及风、光并网系统次同步振荡机理和抑制措施开展研究,主要工作内容如下:
学位
水文循环实质上是生物圈中心的“血液流”,是地球上最重要的物质循环之一。大气过程作为水文循环的重要环节,对区域降水具有重要的影响。澜沧江流域位于中国西南部,是我国西部的主要河流之一。澜沧江流域水资源丰富,研究流域水汽输送及其收支特征,对于掌握该地区气候形成机制及气候变化特征具有重要意义,为促进区域经济规划发展、解决水资源匮乏等问题、流域范围内水库、大坝等水利工程的设计和运行管理提供了参考依据,具有重
学位
基于现有的高压共轨国V柴油机,在进气歧管处加装一套甲醇喷射系统实现甲醇/柴油双燃料可控压缩着火燃烧(Reactivity Controlled Compression Ignition,RCCI)模式,同时采用实验室自主研发的Lab ECU集成控制系统实现对双燃料RCCI模式的柔性协调控制。RCCI模式充分利用柴油机高压缩比和高热效率的优势,另外可同时降低氮氧化合物(Nitrogen Oxides
学位
服役于我国近海沿岸、盐渍土地区以及含酸碱性工业废水环境下的混凝土结构,长期经受SO42-、Mg2+等离子的强烈腐蚀,在使用不久后极易出现开裂以及材料脱落等劣化问题,威胁着混凝土结构的安全运行。工程上通过在混凝土中添加外掺剂如纤维材料来改善混凝土的工作性能,玄武岩纤维混凝土作为一种新型建筑复合材料,凭借着优良的力学性能、耐久性能和抗冲击性能,被广泛应用于改善混凝土结构的性能。而玄武岩纤维混凝土结构在
学位