论文部分内容阅读
自动问答系统在自然语言处理领域受到广泛的关注,并在多个专业领域得到了充分的应用。随着开放的知识图谱中信息的实体和实体关系的增加,给基于知识图谱的问答系统的发展提供了完备的数据支持。但对于特定专业领域的知识图谱来说,开放的知识图谱通常会缺乏特定专业领域的专业知识和信息,具有一定的局限性。在过去的研究当中,科研人员已经在问答算法中引入许多外部知识和信息,这些模型用到的知识信息大都是非结构的文本数据,但仍存在许多问题。首先它们通常都非常依赖与这些非结构化的文本数据的质量。其次,它们通常把知识图谱中的三元组分开来看待,缺乏全局的视角和统筹全局的方法。最后,它们往往比较忽视实体关系在问答系统中的意义。本文首先实现了医学知识提取、医学知识融合以及医学知识存储等过程,其中运用了Bi-LSTM-CRF网络进行知识抽取,并且使用了实体对齐等多种数据预处理方法,将从不同来源收集的医学数据用于构建身心健康知识图谱。并将常识知识图谱和常识数据集作为数据和语料的补充,以此提高模型的鲁棒性和回答内容的丰富性。其后本文提出了基于身心健康知识图谱的全局对话模型,即GKCM(global knowledge conversational model)模型,在编码器端通过多重Multi-attention机制、1v1卷积核的特征提取以及残差连接的方式对医学知识三元组进行嵌入表示,加深了模型对于用户问题语义的理解。模型不仅能获取特定三元组以及其周边相邻三元组的实体和实体关系,还以迭代的方式获取了知识图谱全局的关键知识信息,理论上使得模型能够获得医学知识图谱的全局的视角,以便更好的抓住用户问题的语义信息和提升模型推理联系判断的能力。最后本文以医疗知识图谱为基础、GKCM网络模型为核心搭建的了一个简单的身心健康自动问答系统。本文使用的开发语言是python,前端使用Bootstrap框架和jQuery进行搭建,后端使用Flask构架,数据库使用Neo4j图形化数据库,前后端的数据交互通过Ajax实现,最终实现了用户与系统的问答交互等功能。