基于分布表示的跨语言跨任务自然语言分析

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:letianqingya
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
特征表示是统计机器学习的基础工作,也是影响机器学习系统性能的关键因素之一。在基于统计的自然语言处理研究中,最常见的特征表示是离散形式的符号表示,比如对于词的独热表示(One-Hot)以及对于文档的词袋表示(Bag-of-Words)等。这种表示方式直观简洁,易于计算,结合特征工程以及传统机器学习算法(如最大熵、支持向量机、条件随机场等),可以有效地应用于大部分自然语言处理的主流任务。另一种重要的特征表示机制称为分布表示,通常为连续、稠密、低维的向量表示,比如早期的潜在语义分析(Latent Semantic Analysis)以及近年来应用甚广的“特征嵌入”(Feature Embedding)方法等。近年来,特征的分布表示被广泛应用在基于深度学习的自然语言处理模型中。与符号表示相比,分布表示可以更自然地与学习能力较强的深度神经网络模型相结合,并通过逐层抽象的表示学习来获得更适用于具体任务的高层语义表示。这也是填补自然语言处理语义鸿沟的一种有效手段。更重要的,分布表示提供了一种通用的语义表示空间,为不同任务、不同语言、不同模态数据之间的信息交互构建了一座桥梁。这种语义表示上的通用性使得多源训练信息能够相互融合,进而起到知识迁移的作用。比如,从无标注的生文本中训练神经网络语言模型而得到的词汇分布表示,被证明能够有效地提升大多数自然语言处理主流任务的性能。本文正是利用分布表示的这些特点,尤其针对其在语义表示上的通用性,研究了分布表示在跨语言、跨数据类型以及跨任务知识迁移中的关键技术。主要包含以下几个方面:1.基于双语数据的词义分布表示学习。针对前人提出的词汇分布表示无法刻画一词多义现象的问题,本文提出利用双语数据中所蕴含的词义对齐信息来学习词义级的分布表示。一方面能够更完整地刻画词义信息,另一方面可以结合循环神经网络对单语数据进行词义消歧,进而服务于上层应用。2.基于分布表示的跨语言依存句法分析。对于世界上绝大多数自然语言,句法标注资源难以获取,且人工标注代价较高。因此,本文提出多语言分布表示学习的方法,将不同语言的词语表示在一个相同的向量空间之内,构成了句法知识在不同语言之间进行迁移的一座桥梁。进而利用资源丰富语言(如英语)的句法资源,来对资源稀缺语言进行依存句法分析。3.基于深度多任务学习的多类型树库迁移学习。对于句法分析而言,现有的依存树库多种多样,或来自不同语言、或采用不同的标注规范。本文提出基于多层次分布表示共享的深度多任务学习结构,能够有效地从不同类型的源句法树库(不同语言、不同标规范)中进行知识萃取,从而提升句法模型在目标树库上的分析精度。4.面向语义角色标注与关系分类的统一框架。不同任务之间往往存在一定的共性,比如语义角色标注与(实体)关系分类,它们都涉及对句子中的语义关系进行分析。本文提出一个统一的深度神经网络模型,将语义角色标注与(实体)关系分类任务进行融合,并采用深度多任务学习来提升目标任务上的性能。总的来说,本论文利用分布表示在语义表示上的通用性,深入地研究了其在跨语言、跨任务与跨数据类型学习上的应用,在词汇、句法、语义层面上显著地提升了不同任务的性能。我们期待这些研究成果可以进一步延展至更多类型的数据以及任务,甚至应用于跨领域分析,以进一步推动自然语言处理领域的发展。
其他文献
中华通信在3.5GHz一期招标中,取得了全部五个城市的使用权.在中标后,我们切实履行承诺,迅速完成了设备选型,工程建设,率先在国内开通了3.5GHz无线接入网.在一年多的运营实践
从古到今,人类对月亮就有着无限的神秘感,并且赋予了种种天真的幻想。从西方到东方,月相盈亏的各种变化,让人们对月亮一直存在着微妙的情思。
神通广大的水瓶座魔法大师,它拥有最丰富的想象力与创造力,心灵手巧,善于从千篇一律中跳跃出来,变幻出千奇百异的各种姿态,让所有的水果都可以找到最合适的归宿,无穷的变化让人感到
针对实验室非标准方法——气相色谱-质谱联用法测定姜中丙炔氟草胺的含量,按照测定方法和程序,对姜中丙炔氟草胺进行测定,对其不确定度进行分析和评估,并根据评估结果提出使
教学管理是教育领域中的重要组成部分,教学管理方式是否科学直接影响教学效率。在本篇文章中会针对中学教育管理的人性化管理方法展开详细的阐述。从中学生的身心发展规律入
研究不同培养基、蔗糖质量浓度、pH值、接种量、NAA、6-BA、VB1及培养时间对大花金挖耳细胞生长和黄酮类化合物合成的影响。结果表明:NT液体培养基在pH5.5、蔗糖质量浓度40g/L
英语课堂上的教师话语有着特殊的涵义,在课堂上起着双重作用。它既是教师进行英语教学所使用的媒介语言,又是学生学习的目标语言;既帮助教师组织教学,又对学生习得语言提供了
近年来,无线电事业在我国得到了迅猛发展,无线电业务渗透在政治、经济和人民生活的各个方面,创造了很大的社会效益和经济效益.由于海南独特的经济结构和特殊的地理位置,海南
采用NIR Systems6500和InfraXact Lab型近红外仪分别对158份绿茶未粉碎品和粉碎样品进行光谱扫描,利用正交试验设计,分别采用主成分回归、偏最小二乘、改进偏最小二乘3种校正方
美国Cubic公司为组成VXI总线结构的宽带、多信道监测测向系统与美国其它高科技公司一起专门研制和生产了系列VXI模块化设备.包括VXI系列接收机(9kHz-3200MHz)、VXI高精度频率