【摘 要】
:
双语命名实体对是跨语言自然语言处理领域的一项重要资源,大规模双语命名实体识别可以有效提升信息检索、机器翻译、自动摘要等自然语言处理任务的性能,研究抽取双语命名实体对有重要的意义和应用价值。本文对中英双语对齐语料抽取命名实体对的方法进行了研究,在学习前人工作的基础上,针对中英命名实体对匹配不完全、匹配错误等问题,提出了一种融合词向量的多特征命名实体对抽取方法。首先,使用命名实体识别模型分别在中英两种
【基金项目】
:
本文获得国家自然科学基金资助1.国家重点研发项目(2020AAA0108000):以中文为核心的多语种自动翻译研究2.国家自然科学基金联合基金项目(U1936109):面向大规模汉语新闻语料的实体抽取与自动摘要研究3.国家自然科学基金面上项目(61672127):基于深度学习的句子相似度计算研究;
论文部分内容阅读
双语命名实体对是跨语言自然语言处理领域的一项重要资源,大规模双语命名实体识别可以有效提升信息检索、机器翻译、自动摘要等自然语言处理任务的性能,研究抽取双语命名实体对有重要的意义和应用价值。本文对中英双语对齐语料抽取命名实体对的方法进行了研究,在学习前人工作的基础上,针对中英命名实体对匹配不完全、匹配错误等问题,提出了一种融合词向量的多特征命名实体对抽取方法。首先,使用命名实体识别模型分别在中英两种语言上识别出中文命名实体和英文命名实体,形成多个候选实体对;接着使用命名实体扩展策略,扩充命名实体对候选集;然后计算候选集中每一个实体对的各项特征,包括音译特征、翻译特征、长度特征,以及在命名实体扩展过程中计算的中英匹配和英中匹配特征,共五项特征,其中,在计算匹配特征时,加入了单语和跨语言词向量进行优化;最后,分别使用最大熵模型和神经网络分类模型融合上述各项特征,判断命名实体候选对是否具有互译关系,最终得到命名实体对集合。实验结果表明,本文提出的方法能够有效提取中英双语对齐语料中的命名实体对,在公开中英平行语料库上抽取人名、地名、组织机构名实体对的开放测试F值分别达到89.50%、86.99%和81.22%。基于上述方法,本文设计并实现了一个双语实体对抽取系统,该系统分为四个模块:(1)中英单语命名实体识别模块;(2)命名实体扩展模块;(3)候选命名实体对特征计算模块;(4)命名实体对对齐模块。基于上述系统,使用Flask Web框架搭建命名实体对抽取系统在线平台。该平台提供管理员和普通用户两种身份,由管理员添加和指派语料,普通用户在线调用模型抽取并修正被指派的语料文章,并将新的双语实体对保存在双语实体对词典中。
其他文献
烟草是一种重要的经济作物,在我国的国民经济中占有重要地位。我国是烤烟生产大国,及时、高效地采收作业可大幅提高烤烟产量和利润。目前,国外烟草收获机种类齐全,自动化程度高,采摘效果好。国内烟草收获机的研制处于起步阶段,引进、仿制的国外机型因采摘机构不适用国内的烟草品种,导致采摘效果较差,亟需针对采摘机构进行研究。本课题根据国内烟草成熟期的物理力学特性,设计了采摘机构,理论分析了采摘机构工作参数对烟叶采
新型冠状病毒肺炎(COVID-19)疫情正在全球蔓延,其是一种传播迅速并危及人类健康的传染病,直至2021年新冠肺炎疫情仍在许多国家和地区迅速蔓延。因此迫切需要对新冠肺炎的发展和蔓延趋势进行研究,以开发出长期预测模型来预测未来病例的数量,预测疫情何时可能出现拐点,以及分析政府出台的一系列防控措施对疫情防控的影响,而这些防控措施同时也对国家的经济造成了影响,为了探究这些措施是否产生了影响以及该维持多
当前,安全的自动驾驶已成为未来趋势。对于自动驾驶车的决策来说,最重要的是保证车辆的安全性,其次才需要考虑车辆的通行效率等其他因素。车辆的安全性是自动驾驶模型可信任的基础。而深度强化学习不可解释和缺乏安全的特性阻碍了其在自动驾驶领域进一步应用。如何建立一个更加安全的自动驾驶模型成为关键性问题。因此,本文针对深度强化学习在单车和多车协同场景下如何建立更安全的模型进行了研究,具体内容包括以下两个方面:第
磁约束可控核聚变是解决未来能源危机的一条理想的途径。托卡马克是目前最有希望实现和平利用核聚变能的装置。而高约束模式是当前托卡马克聚变等离子体的基础运行模式;尽管高约束模式有着更高的聚变参数,但这种运行模式伴随着周期性爆发的边缘等离子体不稳定性,即边缘局域模(ELM)。边缘局域模会周期地从芯部向刮削层喷发高通量的粒子流,短时间内将超过材料热负荷极限的能量沉积到装置局域等离子体面壁上,造成装置壁材料损
1,3-丙二醇是一种重要的化工原料并具有广泛的用途。以其作为合成原料的纤维材料具有多种优良性能,但因1,3-丙二醇成本较高而一直未能大规模应用。对于1,3-丙二醇的工业生产来说,开发高效、低能耗的分离方法对降低成本十分必要。为此本文探究了低速离心去除菌体、混合醇萃取脱盐的可行性,并合成了一种新型树脂,尝试将萃取与吸附相结合进行浓缩发酵液的脱盐和蛋白。具体研究结果如下:首先用低速离心法代替膜过滤法去
气垫船推进风机是气垫船的主要推进动力源,风机产生轴向力的同时造成风机内部以及风机下游流场的扰动。其中,轴向力大小直接关系到气垫船推进性能,而流场的非稳态特性直接关系到气垫船振动及噪声。本文利用数值仿真分析气垫船风机的推力及其流场的压力分布特性,进而分析风机周围结构如导流罩、发动机、甲板等对风机推力及流场压力分布的影响。在此基础上分析了风机上游物体及下游障碍物的存在对风机推力及流场压力分布的影响。详
在经济全球化下,世界不同区域在经济与碳排放层面都不可避免的联系在一起。这种联系可以用溢出反馈效应来衡量,并且溢出反馈效应对区域经济发展与碳排放增长发挥着越来越重要的作用。为了厘清世界多区域间经济与碳排放上的相互影响,并进一步聚焦于中国这一最大的碳排放国家与发展中国家,研究世界多区域间经济与碳排放的溢出与反馈效应也就具有重要意义。本文基于改进的三区域投入产出模型,提出了世界多区域间溢出反馈效应计算方
科技高速发展的时代背景,赋予了雕塑这种传统空间艺术真正的动态变化。这种动态艺术迎合了大众的审美观念,满足了大众更高层次的心理需求,让动态雕塑成为现代雕塑艺术中的重要角色,拥有良好的发展前景。同时经济的平稳发展,带动了大众的消费水平以及精神消费需求,提高了展演市场的活跃度,但也让展演出现了同质化的现象,缺乏空间的文化内涵与特色。而展演类型中的动态雕塑能够有效地为展演注入活力,是改善提升展演现状的一种
Different countries have a variety of geographical,topographical,and climatic conditions.Some countries have their guidelines for design structures,and some depend on other countries to lay down the g
随着计算机的快速发展,互联网信息爆炸式增长,如何从自然语言文本中抽取出特定的事实信息成为了自然语言处理领域的重点之一。关系抽取是自然语言处理中的一项重要任务,目的是预测实体间的语义关系,并为构建完整的知识网络提供支持。本文对有监督关系抽取和远程监督关系抽取的现有方法进行改进,以提升其准确率。在关系抽取问题上,现有研究常采用Attention作为信息提取与整合的方法。Attention是一种模拟人关