基于免疫学原理的词表示及其应用研究

论文部分内容阅读

自然语言处理研究主要应用机器学习方法,需要对词进行数学表示。词表示就是采用数学形式用词的属性对词进行的表示,在现有研究中,词一般表示成向量,向量的每一维对应词的属性。词表示的学习可以事先独立于具体任务和模型,一旦词表示学习完毕,学习到的词表示可以共享给其他研究人员并整合到现有的自然语言处理研究中。词表示对自然语言处理研究至关重要,已广泛应用于词相似度计算、关系相似度计算、词性标注、句法分析、命名实体识别、情感分析等自然语言处理任务。词表示方法的理论根源是分布式语义假设,即出现在相同上下文的词倾向于表达相似的意义。所以现有词表示研究大多基于大规模语料,应用统计机器学习方法从词的上下文中学习词的向量表示。由于大多数统计机器学习方法缺乏持续学习能力,词表示只能是在给定规模的语料上一次性学习完成。所以现有词表示方法最大的问题就是缺乏持续学习能力,适应性较差,制约了词表示的进一步应用。本文借鉴人体适应性免疫学原理,构建多词主体自治学习模型从语料中学习词表示,试图解决这一问题。首先,本文系统地分析了语言和免疫系统的一致性,奠定本文研究的理论基础;然后,基于一致性,把词模拟成免疫细胞,引入克隆选择原理和免疫网络理论构建多词主体自治学习模型学习词表示;其次,在词相似度计算和关系相似度计算这两个任务上对本文提出的词表示方法进行了评价,这两个任务同时也是词表示的直接应用;最后把词表示应用到中文电子病历命名实体识别这一代表性的信息抽取任务中。主要研究内容包括以下五个方面:1.系统地比较了语言和免疫系统的一致性,深入分析了语言和免疫系统的一致性对词表示研究的重要启发。语言和免疫系统的一致性是本课题的理论基础,一致性对比分析从三个方面展开,首先是学习特点的一致性,都具有持续学习特性;其次是作为语言的最小单位词和免疫系统的重要细胞B细胞存在深刻的一致性;最后是由词组成的语言网络和由B细胞组成的额免疫网络都具有复杂网络特性。这三方面的一致性对模型的设计提供了重要启发,指导词表示学习模型的构建。2.提出基于免疫学原理的词表示方法和多词主体自治学习模型学习词的表示。在面向自治计算框架下采用主体建模方法,引入适应性免疫学原理(克隆选择原理和免疫网络理论),构建多词主体自治学习模型,该模型是一种在线学习模型。模型将词模拟成B细胞,将词的属性表示支配属性向量和依赖属性向量,并模拟成B细胞受体,词之间的依存关系模拟成B细胞之间的识别关系,识别方式是一个词的支配属性向量和另一个词的依赖属性向量进行匹配。在免疫学原理的作用下,模型调节词之间的结合强度,进而学习词的表示。3.基于本文的词表示方法提出一种词相似度计算方法,并通过实验验证词表示方法和词相似度计算方法的有效性。本文的词表示方法把词表示成两个向量,一个代表词的支配属性向量,另一个代表依赖属性向量;本文扩展分布式语义假设为“具有相似的支配上下文和相似的依赖上下文的两个词是相似的”,因此词相似度值需要考虑两个词在支配属性向量上的相似度和依赖属性上的相似度。该方法在评价数据上取得了有效的评价结果。4.基于本文的词表示方法提出一种词关系表示方法和词关系相似度计算方法,并通过实验验证词表示方法和词关系相似度计算方法的有效性。本文把词的结合关系泛化成语义关系,因而把一个词的支配属性向量和另一个词的依赖属性向量匹配后得到的向量作为关系的表示。词之间的关系存在方向性,因此本研究把词的关系表示成两个向量,一个代表词之间的正向关系,一个代表词之间的反向关系,分别对应于词之间的两种结合方式;基于这样的关系表示,本文认为只有在正向关系上和反向关系上同时相似的两个关系对才相似,因此关系相似度值需要考虑两个关系对在正向关系向量上的相似度和反向关系向量上的相似度。该方法在评价数据上取得了有效的评价结果。5.基于本文的词表示方法,引入词表示到命名实体识别模型中,提升中文电子病历命名实体识别的性能。本文首先抽取电子病历中的词,然后从新闻语料上学习到的词表示集中取得词的向量表示,对病历中的词进行聚类,然后把词的聚类作为命名实体识别模型的特征,实现了领域间知识的迁移。对比实验表明本文的词表示能有效提升中文电子病历命名实体识别的性能。综上所述,针对现有词表示方法缺乏持续学习能力这一不足,本文受语言和免疫系统的一致性启发,把词模拟成免疫细胞,基于适应性免疫学原理构建多词主体自治学习模型学习词的表示,并在词相似度计算、词关系相似度计算验证有效,而且成功应用于中文电子病历命名实体识别,取得了一些初步的研究成果。我们期待这些研究成果能够进一步推动自然语言处理领域持续学习研究的发展。

其他学术论文