论文部分内容阅读
目前,问答已经被应用于很多特定的领域,比如医药领域和地理领域等。随着开放知识图谱中实体和关系的不断丰富,开放知识图谱可以为领域问答提供更丰富的信息。然而,基于开放知识图谱的领域信息查询仍面临一些挑战,其中的数据未指明其所属的领域,而且用户的自然语言查询和知识图谱中的数据在结构上不一致。本文提出了一种基于开放知识图谱的特定领域问答研究方法,该方法设计了一系列逻辑规则将用户问题的语义解析结果转化为问题三元组;再根据WordNet和Microsoft Concept Graph对问题三元组中的概念进行多语义角度的扩展;基于概念的语义扩展结果实现问题三元组的语义扩展;再将扩展后的问题三元组和开放知识图谱中的领域数据建立匹配关系。本课题所做的主要贡献如下:1)设计逻辑规则将问题转化为结构化表示。使用自然语言处理工具Stanford Parser和Stanford CoreNLP对用户问题进行解析,再根据所设计的规则将解析结果整合为三元组表示,从而实现问题的结构化表示。2)设计语义查询扩展策略和扩展结果过滤策略以进行查询扩展。基于WordNet和Microsoft Concept Graph对问题三元组中的概念进行同义词、上义词或下义词等扩展。对每种语义角度的扩展结果,基于相似度计算方法设计不同的过滤策略。3)基于语义标记信息进行匹配结果验证。除了相似度数值,本文还使用了语义标记信息对问题中概念的匹配结果进行筛选。相似度数值和语义标记信息的结合使用可以进一步提高概念匹配的准确率。4)针对失败的匹配提出了一种基于本体结构的查询松弛策略。问题三元组中的概念可以和指定类型的领域数据重新进行匹配。此外,判断概念和领域数据之间是否可以建立匹配关系的相似度阈值可以降低。本文提出的查询松弛策略可以使问题和领域本体之间建立尽可能多的匹配关系。