论文部分内容阅读
随着智能问答技术在生活中的逐渐普及,人们对问答系统的要求也在不断提高。然而传统问答系统一般对手写规则和模板依赖程度较高,存在泛化性能不强,实用性较差等问题。要提升问答系统的性能,可以通过赋予问答系统知识储备和知识推理能力的方式,利用知识图谱对问答系统进行外部知识补充是一种可行的方法。知识图谱是一种高效的知识表示形式,在搜索、推荐等领域有着广泛的应用,可以为问答系统带来可观的性能提升。针对知识图谱问答研究方向,本文主要完成了两方面工作,分别是基于预训练模型的中文知识图谱问题生成方法和基于知识图谱子图融合的多关系问答方法。现有中文知识图谱问答语料库大多存在规模较小,质量较差等问题。因此,本文提出一种基于预训练模型的中文知识图谱问题生成方法。该方法的架构思想来源于条件变分自编码器,基于该想法本文设计了一种预编码器-源编码器-解码器核心架构。该架构利用预训练模型BERT进行预编码,并采用Transformer模型构建源编码器和解码器。此外,该方法还结合了答案编码技术并进行了改进。该工作的实验部分使用NLPCC2017 KBQA数据集进行实验,实验结果表明该模型在BLEU、ROUGE以及人工评价指标上较基线模型有明显提升,并且能够生成更具多样性的问题。本文利用该方法构建了一个中文图谱问答数据集,作为多关系问答方法的实验数据集之一。多关系问答是在一个问题中存在两个或两个以上三元组的问答任务,复杂性较高。相关研究大多没有考虑问题所涉及的知识图谱子图信息,也不具备知识推理能力,导致性能较差。因此,本文提出一种基于知识图谱子图融合的多关系问答方法,该方法利用知识图谱点边关系和子图结构来提升知识表示能力,并结合可解释的推理网络赋予模型知识推理能力。实验在真实数据集PathQuestion和WorldCup2014上进行,实验结果显示该方法较其他基线模型有一定提升。此外,选取部分基线模型与本实验模型在上述问题生成模型所生成的中文图谱问答数据集上进行了实验比较,实验结果表明,基于知识图谱子图融合的多关系问答方法在中文数据集上也有更高的准确率。