论文部分内容阅读
近年来,随着我国经济飞速发展,人民的生活水平得到了明显改善。然而随着经济的发展,人们的工作压力增大,生活节奏加快,加班多、应酬多、运动少,不健康的生活方式导致了高血压呈现出“井喷”式增长。高血压的起病隐匿、病程长、病情迁延不愈,易造成脑、心、肾等重要脏器的损伤。高血压的致死率和致残率高,严重影响着患者的劳动能力和生活质量,并且高血压的治疗费用高,加重了患者家庭的经济负担,增加了社会医疗的开销。如何有效预防和控制高血压已经成为当今社会现代化进程中必须认真面对的问题。知识图谱是以图的形式刻画客观世界中的概念和实体之间关系的知识网络。目前,推荐系统、智能搜索、知识问答等上层应用都依赖于知识图谱作为底层服务。本文旨在研究高血压知识图谱构建框架及细节的改进,主要工作如下:1.命名实体识别是知识图谱构建过程中的重要环节,命名实体识别主要是将文本中有意义的词语提取出来。并且命名实体是知识载体的重要组成,因此,命名实体的识别结果直接影响知识图谱的综合水平。本文引入领域知识来指导命名实体识别,从而提高识别效果。该方法不仅提高了命名实体识别的准确率,同时将知识图谱应用于深度学习模型,提高了知识图谱的应用范围。2.常见的知识图谱构建主要有自顶向下和自底向上两种方式。其中自顶向下的构建方式是使用高质量数据人工或自动提取本体和模式信息,进而构建知识图谱。自底向上的构建方式则是借助一定的深度学习模型,从海量数据中提取出知识信息,进而构建知识图谱。自顶向下的知识图谱是领域专家参与构建的,然而随着数据规模的不断增大,人工构建方式变的愈发困难。本文提出一种数据驱动的构建方法,该方法降低了领域专家的参与度,降低了知识图谱构建的要求。3.知识图谱作为一种智能、高效、精准的知识组织方式,可以快速、准确的查询所需信息。然而知识图谱的构建过程耗时耗力,如何利用已有领域的知识图谱来加快新领域知识图谱的构建具有较高的研究价值。迁移学习的出现为解决上述问题提供了可能。迁移学习是将一个领域的知识应用到另一个相关但是不同的领域中。鉴于此,基于已有的糖尿病知识图谱,利用迁移学习方法,对高血压知识图谱迁移构建方法进行研究。本文使用模型迁移的方法初始化目标域模型,在标注样本较少时使用样本迁移方法构建辅助样本,将辅助样本和目标域样本协同训练。实验结果表明所提方法较之传统方法,在标注样本较少时,实验结果有明显提高。在标注样本较多时,训练效率得到大幅提升。