论文部分内容阅读
从互联网上流动的海量非结构化文本数据中提取结构化知识,并将其拼接成知识库,从而让机器获得“计算知识”的能力,是改进信息检索、智能问答和机器阅读等自然语言处理技术的基础。在这个过程中,实体链接是关键的基础技术,其目标是消除由于别名、指代、一词多义等语言学现象引发的歧义,将文本中表示专有名词的文本片段(实体提及),与知识库中相应的条目(实体)匹配对应。如何自动、快速和准确地为实体提及生成规模合理、质量可靠的候选实体集,并优先选择正确的候选实体是实体链接的研究重点。 本文对此展开了深入研究,设计并实现了一套基于实体类别约束与动态上下文增强的实体链接系统: (1)针对在候选生成步骤中提升候选质量和缩小其规模是一对互斥行为的问题,本文提出了一种基于实体类别约束的候选生成方法。在提升质量方面,该方法实现了一种涵盖简称、繁简、翻译扩展等功能的称谓扩展策略,和一种基于实体类别约束和就近原则的子字符串指代消解策略,并研究了一种基于Freebase与Wikipedia融合资源的精确匹配与模糊查找相结合的候选查询策略。在缩小规模方面,本文提出了一种统计最大频繁实体类别项的算法,筛选并建立了提及类别与Freebase实体类别集的一对多的映射关系表,从而合理地缩小了候选查询范围。本文还先后实现了一种利用文本字面相似度的模糊查询优化策略和一种基于实体先验热度和实体语义相似度的候选集筛选算法,用以进一步缩小候选实体集的规模。 (2)针对在候选排序步骤中利用各实体提及之间的主题相关性和降低算法时空复杂度与偏差是两个相反方向的问题,本文提出了一种基于动态文本增强和深度强化学习的候选排序方法。动态文本增强机制在实体提及的消歧过程中将不断地向当前文本添加已链接实体的描述信息,从而引入了潜在的主题相关性,并产生了一个存在前后依赖关系的动态文本序列。深度强化学习将顾及当前决策与先前决策的潜在关联,搜寻全局最优解,从而改进了模型的训练,并增强了模型在“噪声”文本环境下的适应能力。动态文本增强和深度强化学习相互支持,激发了模型性能的提升。另外,本文引入了课程学习思想,通过优化训练样本的次序和实体提及序列的决策次序,改善了模型训练过程中所存在的训练周期长、收敛难度大、效果不稳定等问题,进一步提升了总体性能。 本文选用了实体链接领域内公开通用的一个域内数据集和五个跨域数据集进行实验,并采用了统一公认的评价指标衡量实验结果。实验结果表明,本文的实体链接系统性能超过了或接近于现有的最先进(State-of-the-Art)方法。 基于本研究的实体链接系统,在2017年NIST(美国国家标准技术研究所)组织的国际知识库构建大赛(TAC KBP)的中、英、西三种语言EDL(实体发现与链接)任务中,取得了综合成绩排名第二,算法的准确率指标排名第一的成绩。参加本次任务的队伍还包括腾讯人工智能平台部、阿里巴巴达摩院、IBM、CMU等国内外高校与研究机构。该成绩充分证明了本研究所述的实体链接系统在应对歧义性、多语言内容和高吞吐等实体链接的重点挑战方面,做出了实质性的推动工作。另外,本文的系统还直接应用于由中国工程院牵头的中国工程科技知识中心建设项目,为实现其中的自动知识库构建与数据结构化发挥了重要的作用。