基于动态上下文相关词向量的句子级语言分析技术研究

来源 :哈尔滨工业大学 | 被引量 : 2次 | 上传用户:gigahunter
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自然语言处理是人工智能的重要子学科。作为自动处理文本的第一步,将词转换为数值化表示很大程度地影响了自然语言处理的性能。词向量为自然语言的最小语义单元—词提供了包含句法语义信息的稠密向量表示。作为基于神经网络的自然语言处理的基础,依据词义分布假设构造的词向量给诸多自然语言处理模型带来了性能的提升。为了提高词向量的学习效率,前人工作进一步对词向量进行静态假设,即一个词有唯一的向量表示。这一假设使得在大规模数据上学习词向量成为可能,但也使静态词向量无法根据上下文环境决定其表示,因而无法建模‘‘一词多义’’等现象。动态上下文相关词向量是近年来提出的一种词向量算法。这种算法取消了静态假设并根据上下文动态地决定一个词的向量表示。在包括问答、文本蕴含、情感分析在内的多项任务中,使用上下文相关词向量的模型均取得了当前最优的性能。
  很多自然语言处理任务依赖包括分词、词性标注、命名实体识别、句法分析在内的句子级语言分析。优化语言分析有助于提高自然语言处理的性能。近年来,基于神经网络的语言分析算法在静态词向量的帮助下取得了较大的性能提升。但上下文相关词向量对语言分析的作用仍有待探索。
  基于上下文相关词向量与句子级语言分析技术的进展,本文围绕两者的结合开展一系列的研究,本文研究主要包括以下几方面:
  1.面向语言分析的上下文相关词向量:针对现有上下文相关词向量使用多层网络对一整句甚至多句进行建模而导致的效率问题,本文从语言分析主要依赖局部信息的角度出发,提出一种融合相对位置权重的窗口级自注意力机制并将其应用于上下文表示,从而获得一种适用于语言分析的上下文相关词向量。五项词法句法任务的实验结果表明,由于使用局部模型替代全局模型,本文提出的上下文相关词向量在不损失精度的情况下获得了三倍的速度提升。
  2.基于上下文相关词向量的词法分析模型:针对词法分析中的切分问题(中文分词与命名实体识别)对合理的片段(词与实体)表示的依赖,本文在上下文相关词向量的基础上提出一种基于简单拼接的片段表示方法并将其应用于半-马尔科夫条件随机场中。典型切分问题的实验结果显示本文提出的片段表示有效地提高了模型性能。通过进一步融合任务相关的上下文表示以及建模片段级信息的片段向量,本文模型取得与当前最优模型相近的性能。
  3.基于上下文相关词向量的句法分析模型:针对上下文相关词向量对多国语句法分析作用尚无明确结论的现状,本文提出在多国语句法分析中使用上下文相关词向量并在大规模树库上验证其有效性。本文在获得显著的性能提升的基础上对提升的原因进行了详细的分析。实验结果表明,性能提升的主要原因是上下文相关词向量通过对于未登录词词形的更好的建模有效地提升了未登录词的准确率。
  4.基于知识蒸馏的句法分析加速方法:针对使用上下文相关词向量的句法分析参数过多、运行速度较慢的问题,本文提出一种结合探索机制的知识蒸馏算法,将基于上下文相关词向量的复杂模型蒸馏到不使用相应词向量的简单模型中,从而在不显著降低性能的情况下提高句法分析速度。实验结果表明,本文提出的方法在损失少量句法分析准确率的情况下,近十倍地提升了速度。
  总的来说,本文研究了动态上下文相关词向量及其在句子级语言分析中的应用。上下文相关词向量显著地提高了语言分析的性能,同时语言分析也为上下文相关词向量提供了新的理解。本文研究可以使语言分析技术更好地服务其他自然语言处理任务,从而推进整个领域的发展。
其他文献
辐射诱变育种因具有高突变率、高存活率、宽突变谱、稳定快等特点已经得到广泛应用,但大多辐射诱变育种研究还停留在诱变植株表观性状的观测及有益突变体的筛选上,对引起突变的分子生物学研究较为滞后。光对植物的生长、形态建成、物质代谢、基因表达等均有调控作用,光敏色素感受光信号并不断地对植物生理和发育过程进行光特异性调节。将辐照与光质双重因素协调作用于诱变育种的研究鲜有报道。这些已成为进一步培育优质植物新品种
组织蛋白酶cathepsinD(cathD)是普遍存在于真核细胞溶酶体中的天冬氨酸蛋白水解酶,在溶酶体的酸性环境下发挥剪切底物降解蛋白的功能。但在本研究中,我们发现cathD还具有非传统蛋白酶活性的新功能。与其经典的在酸性环境中降解蛋白的蛋白水解酶活性不同,在中性环境中,cathD可以作为一种新型的磷酸酶,通过去磷酸化丝切蛋白cofilin参与调控细胞微丝骨架的重组。通过免疫蛋白印迹和免疫荧光化学
脊椎动物脊髓内的神经网络是中枢神经系统控制身体动作和行为的重要组成部分。V2居间神经元是脊椎动物脊髓腹侧运动神经网络内的一类将脑部信号转换为协调的身体动作和控制运动速率至关重要的神经元。V2居间神经元发生部位,发育过程和分化类型在脊椎动物中是保守的。在所有脊椎动物中,V2居间神经元都包含激活型V2a和抑制型V2b居间神经元两个亚类。V2a和V2b在分子特征和功能上都不同,但都是由神经管腹侧的P2前
学位
当前,癌症依旧严重威胁着人类健康。据2015年世界卫生组织对全球172个国家人口死因的数据统计,癌症是其中91个国家人口过早死亡(70岁前)的首要或次要原因,是另外22个国家人口过早死亡的第三或第四原因。2018年,结肠癌成为全球发病率排行第四,致死率排行第五的癌症。  许多肿瘤细胞,即使是在氧气充足的条件下,也会优先通过糖酵解途径,而不是经线粒体三羧酸(Tricarboxylic acid,TC
学位
背景:  肺癌是对人类健康和生命威胁最大的恶性肿瘤之一,其每年的发病率和死亡率在所有类型的癌症中是增长最快,且呈逐年上升趋势。人类基因组中98%以上的基因属于非编码RNA(non-codingRNA,ncRNA)。LncRNA是一种至少拥有200个核苷酸的一种不编码蛋白质的RNA。大量研究表明,肿瘤的形成和演进和lncRNA的异常表达有密切的关系。LncRNA的表达在肿瘤组织和细胞中相对于正常的组
学位
植物叶片衰老是一个受到严格遗传调控的程序性细胞死亡过程,受到各种內源信号和环境刺激的影响。丝裂原活化蛋白激酶(Mitogen Activated Protein Kinase, MAPK)级联是真核生物中高度保守的信号通路。在拟南芥中,两个功能高度冗余的MAPKs(MPK3和MPK6)及其上游两个功能也高度冗余的MAPKKs(MKK4和MKK5)组成一条信号级联,在植物生长发育以及免疫反应等生物学
学位
自噬是真核细胞中高度保守的依赖于溶酶体的一种降解途径,能够降解细胞内异常聚集的蛋白以及细胞内受损的细胞器。自噬的异常和人类许多疾病的发生密切相关,如:神经退行性疾病,代谢类疾病及肿瘤等。自噬的发生过程主要分为四个阶段:自噬的起始,自噬体的延伸与闭合,自噬体和溶酶体的融合,自噬底物的降解。这些过程由一系列自噬相关蛋白参与,并受到细胞内自噬诱导信号的调控。近年来研究发现,自噬相关蛋白受到乙酰化修饰的调
目的:本次研究主要利用CRISPR/Cas9基因编辑技术在体外建立SCN1A基因稳定敲除的细胞系并采用RNA-seq分析细胞的基因表达谱的变化。通过检测mRNA水平的变化分析SCN1A与DS发病之间的关联,并希望为Dravet综合症的治疗提供一些线索。  方法:①根据SCN1A启动子区序列设计sgRNA,并构建CRISPR/Cas9敲除质粒(pX459-SCN1A)。②将pX459-SCN1A质粒
学位
随着互联网的普及,人们之间的交流可以通过语音视频等更为直观和更具表现力的方式实现。未来随着5G技术的推进,网络、车载视频、安防和体育录像都将出现井喷式增长,这使得视频内容理解和处理工作面临着巨大挑战。  本文便是在这一研究背景下,期望对复杂视频的内容进行缩减,实现紧凑表达,以促进相关工作的进展。视频内部存在没有效力的视频帧或者片段,而传统方法对视频进行全局描述并未考虑到这种差异。视频紧凑表达的目标
视觉目标追踪是计算机视觉领域的一项基础性研究,其应用场景包括自动驾驶、人机交互、智能视频处理等。尽管对于视觉目标追踪的研究已经取得了很大的进展,但它仍是一个颇具挑战性的问题。其挑战性在于如何依据目标的一个初始状态,来估计后续视频帧中会发生各种变化的目标的状态。本文结合追踪任务的特性,按照先在线信息挖掘和应用后离线先验信息应用的研究路线,从追踪框架的表观模型和决策模型着手,对以下四个问题进行了研究。
学位