论文部分内容阅读
随着电子健康记录(Electronic HealthRecords,EHRs)的迅速累积和智能信息技术的显著进步,面向EHRs的医疗大数据任务获得了广泛的研究和应用,其中,基于深度学习的时序模式挖掘方法已经取得了显著的成绩。这些模型能够为医疗决策提供辅助信息,对推动智慧医疗的发展具有重要意义。然而,现有的方法在基于EHRs的时序医疗数据表示学习方面仍存在局限性:(1)EHRs数据具有时间间隔不规则、时间粒度差异性大的特点,现有的模型难以有效利用不规则的时间间隔信息、难以有效融合不同时间粒度的时序医疗数据,导致模型难以精准捕获复杂的时序医疗模式;(2)EHRs数据包含丰富的医疗项目数据,现有的时序模型通常将一次访问记录中的医疗项目作为一个整体进行处理,难以有效捕获医疗项目在时间轴方向上的时序关联关系,导致模型难以精准捕获医疗项目中蕴含的时序模式;(3)在时序医疗数据挖掘任务中,现有的时序模型仅依赖当前患者的信息做出预测,未能显式地考虑相似患者的行为对当前患者的影响,导致模型难以充分利用相似患者蕴含的医疗模式信息;(4)在时序医疗数据挖掘任务中,时序模型的可解释性具有不可忽视的意义,现有的模型或缺乏可解释性机制、或依赖于精心设计的结构,缺乏可解释性将导致模型难以应用于实际的临床决策,精心设计的可解释性结构又反向限制了模型自身的灵活性,导致模型的表示学习能力受到制约。为此,本文基于EHRs数据,开展了时序模式挖掘方法和模型可解释性方法的研究,具体研究内容如下:(1)针对现有的模型难以有效利用不规则的时间间隔信息、难以有效融合不同时间粒度的时序数据的问题,本文提出了基于不规则时间间隔感知和多粒度时间序列融合(Irregular Time-interval Aware and Multi Granularity Time-series Fusion,记为ITMGT)的表示学习模型。该模型基于多序列输入处理不同类型的时序医疗数据,从而实现不同类型的时序医疗数据的有效嵌入;基于不同时间粒度对多序列医疗数据进行融合,以捕获多序列输入数据之间的交互关系;最后,基于面向多粒度时序序列的注意力机制实现对时序医疗数据在时间轴方向上的权重分配,使模型关注重要的数据并根据多粒度时序模式进行预测。(2)针对现有的时序模式挖掘方法难以捕获复杂的医疗项目之间的时序关联关系的问题,本文提出了基于信息传播的细粒度时序关联关系(Fine-Grained Temporal Association,FGTA)表示学习模型。该方法首先将相邻两次就医记录的医疗项目构成一个二分图,图中的边由前一次就医记录的医疗项目指向后一次就医记录的医疗项目,表示相邻医疗项目之间的时序关联关系;然后,基于信息传播的神经网络模型用于捕获这种细粒度的时序关联关系;最后,与现有的时序模型相结合,以实现细粒度的时序关系的表示学习和医疗项目的表示学习。(3)针对现有的时序模型未能显式地考虑相似患者的行为对当前患者的影响的问题,本文提出了 一种面向相似患者感知的事件图神经网络(Event Graph Neural Network,记为EGNN)表示学习模型。首先,EHRs数据被建模为包含时序信息的就医图,其中,患者与患者通过所患疾病、历史就诊医院等信息获得关联关系,患者的就医时序信息通过事件节点获得关联关系;随后,基于图神经网络表示学习方法,模型对常规类型的邻居和事件类型的邻居分别执行基于注意力的聚合和基于门控机制的聚合,从而在学习患者的时序信息时,利用图神经网络的感知域获取相似患者的行为信息,增强模型的表示学习的能力。(4)针对现有的时序模型难以获得可解释性的问题,本文提出了一种模型无关的面向深度学习模型的个性化风险因子评估(Personality Risk Factor Evaluation,记为PRFE)方法,从而为智能医疗模型提供可解释性。该方法将基于深度学习的风险预测模型视为多变量函数,通过迭代生成风险变化的最速路径,并基于该路径计算各个特征的累积风险,从而为时序模型提供可解释性。综上所述,本文提出了多种时序模式挖掘方法,以准确挖掘EHRs时序数据中的隐含信息,并对预测结果提供个性化的可解释性分析。在本文中,选取了临床应用中典型的生存预测任务和疾病预测任务,基于MIMIC-Ⅲ和MIMIC-Ⅳ数据集进行了充分的实验,验证了本文所提方法的有效性。