论文部分内容阅读
随着社会和经济的不断发展,人们的生活水平得到了极大地提升,对个人健康和生活问题开始投入越来越多的关注。同时,社会的发展也带来了技术的革新与进步,为了解决医疗费用和需求的增长与优质医疗资源不足之间的矛盾,智慧医疗技术应运而生,这将是一种可以充分利用医学文本知识来模拟医生进行学习和诊疗的技术。而智慧医疗的发展与学习医学知识必不可分,医学知识的来源整体上可概括为医学书籍、临床数据、网络数据三个方面,本文基于医学书籍、网络语料两个来源的数据,对知识图谱构建过程中的关系抽取技术和知识图谱的分布式表示进行了研究。(1)对医学数据进行人工标注,并训练有监督关系抽取模型。提出了基于自注意力机制的分段池化卷积神经网络分类模型,并引入了实体类别等特征使F1值达到了87.2%。(2)对不依赖人工标注的远程监督关系抽取进行了探索。在如何降低远程标注噪声问题方面进行了尝试:先后采用基于规则的方法、基于注意力机制的方法、基于增强学习的方法进行降噪,并探究了负例采样问题,最终的AUC值达到了0.489,也构建了一个涵盖信息较为丰富的基础医学知识图谱。(3)针对构建的基础知识图谱,将其由符号表示转化为更容易给其他任务提供信息输入的稠密低维实值向量表示。基于训练好的向量表示模型来预测知识图谱中的关系和实体,从而达到知识图谱补全的目的。经过上述研究,从各种医学书籍、医学网站出发构建了一个基础版的医学知识图谱。此外,本文构建的远程监督关系抽取框架可以在不需要人工标注的情况下适用于大部分医学语料,甚至是临床文本,这就相当于未来几乎可以将所有的医学知识都囊括到我们现有的知识图谱体系当中。进一步的,通过对知识图谱的分布式表示进行研究,可以直接将图谱的向量表示信息提供给对话问答、诊断推理等任务,从而能更好地发挥智慧医疗的作用,减少医生的诊断次数和诊断时间,促进优质医疗资源的下沉,弥补医疗资源的不足。