【摘 要】
:
机器翻译是利用计算机将一种语言转换成另一种语言的过程,凭借着对语义的深度理解能力,神经机器翻译已经成为目前主流的机器翻译方法,在众多拥有大规模对齐语料的翻译任务上取得了令人瞩目的成就,然而对于一些低资源语言的翻译任务效果仍不理想.蒙汉机器翻译是目前国内主要的低资源机器翻译研究之一,蒙汉两种语言的翻译并不简单地是两种语言的相互转换,更是两个民族之间的交流,因此受到国内外的广泛关注.文中主要对蒙汉神经机器翻译的发展历程和研究现状进行阐述,随后选取了近年来蒙汉神经机器翻译研究的前沿方法,包括基于无监督学习和半监
【机 构】
:
内蒙古大学计算机学院 呼和浩特010021;蒙古文智能信息处理技术国家地方联合工程研究中心 呼和浩特010021;内蒙古自治区蒙古文信息处理技术重点实验室 呼和浩特010021
论文部分内容阅读
机器翻译是利用计算机将一种语言转换成另一种语言的过程,凭借着对语义的深度理解能力,神经机器翻译已经成为目前主流的机器翻译方法,在众多拥有大规模对齐语料的翻译任务上取得了令人瞩目的成就,然而对于一些低资源语言的翻译任务效果仍不理想.蒙汉机器翻译是目前国内主要的低资源机器翻译研究之一,蒙汉两种语言的翻译并不简单地是两种语言的相互转换,更是两个民族之间的交流,因此受到国内外的广泛关注.文中主要对蒙汉神经机器翻译的发展历程和研究现状进行阐述,随后选取了近年来蒙汉神经机器翻译研究的前沿方法,包括基于无监督学习和半监督学习的数据增强方法、强化学习方法、对抗学习方法、迁移学习方法和预训练模型辅助的神经机器翻译方法等,并对这些方法进行了简要介绍.
其他文献
在传统密码学应用中,人们总假定终端是安全的,并且敌手只存在于通信信道上.然而,主流的恶意软件和系统漏洞给终端安全带来了严重和直接的威胁和挑战,例如容易遭受存储内容被病毒破坏、随机数发生器被腐化等各种攻击.更糟糕的是,协议会话通常有较长的生存期,因此需要在较长的时间内存储与会话相关的秘密信息.在这种情况下,有必要设计高强度的安全协议,以对抗可以暴露存储内容和中间计算结果(包括随机数)的敌手.棘轮密钥交换是解决这一问题的一个基本工具.文中综述了密码本原——棘轮密钥交换,包括单向、半双向和双向等棘轮密钥交换的定
高职院校“双高计划”建设社会满意度调查从满意度理论、发展性评价性理论和生态位理论出发,总结社会满意度调查对于“双高计划”建设的重要意义,并以高水平学校的10项建设任务和高水平专业群的9项建设任务为调查对象,分析在校生、毕业生、教职工、用人单位和家长对各个建设任务的满意度量化值.通过综合分析各方需求,提出“双高计划”应始终坚持以学生为中心、打造高水平双师队伍、服务经济社会发展、注重内涵质量建设的发展理念,推动建设任务动态优化,为新时期高等教育的发展与改革提供新视角,彰显职业教育的内在价值.
依存句法分析旨在识别句子中词与词之间的句法依赖关系.依存句法能为信息抽取、自动问答和机器翻译等任务提供句法特征,提高模型性能.训练数据规模对依存句法分析模型的性能具有重要影响,训练数据的缺乏会带来严重的未知词问题和模型过拟合问题.文中针对低资源依存句法分析问题,提出了多种数据增强策略.所提方法通过同义词替换有效扩充了训练数据,缓解了未知词问题.通过多种Mixup的数据增强策略,有效缓解了模型过拟合问题,提高了模型的泛化能力.在(Universal Dependencies treebanks,UD tre
近年来,人工智能技术被广泛地应用于多个领域.其中,智慧医疗场景得到了普遍关注,并产生了大量临床辅助诊断和医疗方案推荐的实际应用.然而,由于人工智能技术的本质在于通过从大量真实数据中进行模式抽取,从而预测未知情况,因此真实数据的数据特征和数据质量将直接影响人工智能应用的效果.相比其他智能应用领域,由于罕见病患者在人群中总是占极少数,医疗数据具有天然的非均衡的特点,而高度非均衡的数据在机器学习领域被认为是难于学习的.针对这一应用现状,文中首先围绕“数据非均衡”问题开展了文献调研,尝试通过寻找该问题的通用解决办
科研是高等学校的重要职能之一,加强高职院校科研与社会服务能力是全面实现高职教育高质量发展的重要目标之一.选择论文、课题、专利、科研与社会服务经费等考察视角,对全国1386所高职院校现时科研与社会服务发展状况进行定量分析,发现高职院校的整体科研水平还处于比较低的阶段,校际之间、不同类型之间和不同省域之间,其发展水平也很不平衡,但已有一小部分高职院校表现突出.以后需要进一步提高对科研与社会服务重要性的认识,制定和完善科研与社会服务方面的相关制度,加强师资队伍建设,改善科研条件与环境,并根据各自发展特性及差异采
教学质量是高职院校的生命线,课堂教学质量是教学质量的基础.要提高高职院校教育质量,必须提高教师课堂教学质量.长期的督导听课评课实践证明,评价教师一堂课质量的优劣,必须关注教师“教什么”“怎么教”和“教的效果”,即教师是否根据人才培养方案确定符合学生实际接受能力的教学目标和教学内容,是否遵循课堂教学基本程序、明确教学目标、选择恰当的教学方法、突出重点和难点、提高学生学习兴趣,达到教书与育人的统一,以及是否以学生为主体,激发了学生学习积极性,实现了预期的教学目标等过程要素.只有这样才能作出客观公正的评价,才能
聚类是一种经典的数据挖掘技术,它在模式识别、机器学习、人工智能等多个领域得到了广泛的应用.通过聚类分析,目标数据集的深层次结构可以被有效地发掘出来.作为一种常用的划分聚类算法,K-means具有实现简单、能够处理大型数据等优点.然而,受收敛规则的影响,K-means算法仍然存在着对初始类簇中心的选取非常敏感、不能很好地处理非凸型分布和有离群值的数据集等问题.文中提出了一种基于密度参数和中心替换的改进K-means算法DC-Kmeans.该算法采用数据对象的密度参数来逐步确定初始类簇中心,使用中心替换方法更
神经机器翻译模型的训练效果在很大程度上取决于平行语料库的规模和质量.除了一些常见语言外,汉语与小语种间高质量平行语料库的建设一直处于滞后状态.现有小语种平行语料库多采用自动句子对齐技术利用网络资源构建而成,在文本质量和领域等方面有诸多局限性.采用人工翻译的方式可以构建高质量平行语料库,但是缺乏相关经验和方法.文中从机器翻译实践者和研究者角度出发,介绍了经济高效的人工构建小语种平行语料库的工作,包括其总体目标、实施过程、流程细节和最后结果.在构建过程中尝试并积累了各种经验,形成了小语种到汉语平行语料库构建方
现实世界中的信息网络大多为异质信息网络,旨在表示低维空间中节点数据的网络表示方法已普遍用于分析异质信息网络,从而有效融合异质网络中丰富的语义信息和结构信息.但是现有的异质网络表示方法通常采用负采样从网络中随机选择节点,并且对节点和边的异质性学习能力不足.受生成式对抗网络和元路径的启发,文中提出了一种新型的异质网络表示方法.首先对采样方法使用元路径的策略进行改进,根据元路径不同的权重取样,使样本更好地体现节点之间存在的直接和间接关系,增强样本的语义关联.然后在生成对抗的博弈过程中使模型充分考虑节点和边的异质
推荐系统如今已被广泛应用于生活中,大大便利了人们的生活.传统的推荐方法主要是针对用户与物品的交互情况进行分析,分析用户与物品的历史记录,得到的只是用户过去对于物品的喜好程度.序列化推荐系统通过分析用户近一段时间与物品交互的序列,来考虑用户前后行为的关联性,能够获得用户短期内对物品的喜好程度.然而,序列化方法强调的是用户与物品在短期的联系,忽视了物品属性之间存在的关系.针对以上问题,文中提出了融合时间特性和用户偏好的卷积序列化推荐(Convolutional Embedding Recommendation