结合句间语篇关系信息的机器翻译质量评估方法研究

来源 :厦门大学 | 被引量 : 0次 | 上传用户:lm20090910
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着机器翻译的发展和当今社会对跨语言间交流的需求日益增长,机器翻译的应用面越来越广。机器翻译质量评估是在不依赖标准参考答案的情况下,根据源文和机器翻译译文对译文的质量进行评价的方法。利用基于神经网络的语言模型自动提取源文与翻译特征的“特征提取器-质量评估器”模型是目前的主流。这种模型使用强大的机器翻译模型来获取语言特征,但是同时也像普通的机器翻译模型一样不关注篇章级的机器翻译评估中的上下文。因此本文从语言学理论中寻求句间信息引入和局部流畅度评价的方法,引入计算语言学理论语篇向心理论概念中的优选中心,来捕捉句子间的篇章信息改进质量评估模型,并构造了汉英篇章级机器翻译质量评估数据集来补足篇章级质量评估数据集不足的问题。第一部分工作是对优选中心的提取,优选中心一般使用根据语言学句法规则的提取方式,但是这种方式对于一些模糊定义的非通常句法成分难以实现自动提取。本文使用基于预训练词表示模型的序列标注模型来获取优选中心,并通过半监督的伪标签学习方法和少量人工标注来解决优选中心标注数据集不足的问题。第二部分工作是引入句子间篇章关系信息的机器翻译质量评估模型的构建和篇章质量数据集的构造。改进的模型基于特征提取器-质量评估器模型架构,增加了句间特征提取器获得句子间关系特征加入质量评估器作为评价依据。句子间关系特征包括待评估句上文的优选中心词表示和由相似性计算得出的待评估句与上文的连贯性和对源文连贯性的实现程度。然后,本文根据质量评估数据集的构造方法和人工标注的标准流程构造了篇章级汉英质量评估数据集。我们在改进模型和优选中心提取模型上进行了实验,改进模型与上下文无关的质量评估模型相比,在篇章级质量评估测试集上有了明显提升。优选中心提取模型与相比基于规则的提取方式在优选中心的提取准确率和召回率上也有着较大提升。
其他文献
Alloferon是一类从细菌感染的果蝇分离得到的十三肽,其氨基酸序列为His-Gly-Val-Ser-Gly-His-Gly-Gln-His-Gly-Val-His-Gly(HGVSGHGQHGVHG),因具有抗肿瘤、抗病毒、抗炎症、免疫调控的多重生物活性被应用于病原体感染治疗用药,其主要通过激发机体自然杀伤细胞NK的细胞毒杀作用及促进干扰素IFN的合成来发挥作用。2003年,Alloferon
如何高效灵活分配蜂窝通信网络中稀缺的频谱资源仍是研究的热点。然而,传统的资源分配方法仅在时域或频域上分配资源,这样的单一维资源分配因其资源粒度过大而降低资源使用效率,且纯时域资源分配也无法考虑频率选择性衰落问题。而基于频域和时域的二维资源分配主要研究场景在于下行通信系统,其优化问题数学建模与求解过程均与上行通信场景有较大的不同。此外,考虑到下行通信场景主要能耗在于基站,研究该场景能耗优化问题的现实
铅卤钙钛矿纳米晶(lead halide perovskitenanocrystals,LHPNCs)具有光学性能优异,窄带发射、高荧光量子产率、可调带隙宽度以及可调发射波长等特点。近年来,相关材料在电致化学发光(electroluminescence,ECL)研究领域崭露头角,但由于其本征离子盐属性,在极性溶剂中不稳定,因此钝化稳定LHPNCs是目前集中攻克的难题。另外,当前的研究更多着眼于LH
随着人们对海洋资源的探索和开发,全球海洋产业发展迅速,代表产业有水产养殖、水下物联网及潜水旅游业,对于水下通信网有着巨大的需求。然而水下信道环境复杂,其有限的信道带宽、随机时空频变和多径信道的特性,一直制约着水声通信的发展。为满足中低端领域水声通信的市场需求,本文设计并实现了一种低成本、具有适当性能的高质量声学调制解调器。本文基于水下通信理论模型,确定了几项系统指标和参数,并依此设计了一套 Con
背景:氧化磷酸化(OXPHOS)抑制剂SMIP004-7体外可通过抑制线粒体复合物Ⅰ阻断OXPHOS作用并诱导大量活性氧(ROS)产生,从而抑制肿瘤细胞生长。但是,OXPHOS抑制剂的体内机制尚未阐明。我们的前期实验证明OXPHOS抑制剂通过影响细胞自主效应,改变肿瘤的呼吸表型、肿瘤干细胞区域、代谢不灵活区域发挥抗肿瘤作用。另一方面,有研究报道OXPHOS抑制剂可影响肿瘤微环境并有免疫抑制效应。因
信息时代的快速发展和科学技术的日新月异对信息存储材料的发展提出了更高的要求。深陷阱长余辉发光材料由于其独特的能量存储和光子释放能力有望成为新一代的光学信息存储媒介。然而,常见的长余辉发光材料在光学信息存储应用中存在稳定性差、电子存储能力弱和需使用X射线作为激发源等缺点使得其在该领域的发展受到了很大的限制。因此,设计开发能够被紫外或者蓝光激发、陷阱深、陷阱分布窄且结构稳定的长余辉发光材料对光学信息存
随着中国经济的转型升级,企业将并购重组作为自身实现快速上市以获取融资渠道、实现企业做大做强、产业升级与转型等的重要手段。在现有的市场经济环境中,企业之间的并购重组是为了能够达成兼并或收购另一个企业。它指并购方所采取地为了获取被并购方的控制权而进行的产权交易活动。而且企业之间发生的并购重组让国内资本市场的企业价值评估也有了很大的进步。一个企业估值定价的准确性影响了机构投资者、中小投资者以及市场监管者
化石燃料的大量使用造成了严重的环境问题和能源危机,而燃料电池由于其清洁无污染和可再生的优点受到了广泛的关注。目前,商业燃料电池使用的催化剂主要还是以Pt/C催化剂为主,但贵金属Pt的储量有限,价格比较昂贵且在使用过程中容易中毒等,限制了燃料电池进一步的发展。为了降低Pt的用量,提高催化剂的电催化性能,将Pt与其它金属形成合金结构是一种有效的方法。研究表明,具有特定形貌的纳米晶的催化性能更优。因此,
如何将人工智能技术有效地应用在股票市场的相关预测中,是我们面临的挑战。如果能确定有效的股票指数预测方法,则有利于投资者做出更明智的投资决策。本文主要研究卷积神经网络在预测股票指数趋势方面的能力。本文以沪深300指数为主要研究对象,预测其下一分钟的四类涨跌趋势。实验选取了股票指数在2019年1月2日至2019年7月15日的交易类数据,基于四价一量一额扩充股票指数常用的技术分析指标,利用多种特征选择方
与传统药物载体递送系统相比,基于单一或多种小分子药物构建的无载体纳米药物自递送系统可达到接近100%的最佳载药量,使药物的抗癌活性增强并有利于克服传统纳米载体所带来的严重生物安全性隐患。尤其是,新型小分子自递送纳米药物的制备方法简便绿色,有助于生物医学转化。受生物体天然细胞膜结构的启发,有效利用多种细胞自身的生物学方面特性,将生物体天然存在的细胞膜包覆在纳米颗粒表层使得纳米药物载体获得如优良的生物