面向EHRs数据的时序模式挖掘关键技术研究

被引量 : 0次 | 上传用户:yinzhg01
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着电子健康记录(Electronic HealthRecords,EHRs)的迅速累积和智能信息技术的显著进步,面向EHRs的医疗大数据任务获得了广泛的研究和应用,其中,基于深度学习的时序模式挖掘方法已经取得了显著的成绩。这些模型能够为医疗决策提供辅助信息,对推动智慧医疗的发展具有重要意义。然而,现有的方法在基于EHRs的时序医疗数据表示学习方面仍存在局限性:(1)EHRs数据具有时间间隔不规则、时间粒度差异性大的特点,现有的模型难以有效利用不规则的时间间隔信息、难以有效融合不同时间粒度的时序医疗数据,导致模型难以精准捕获复杂的时序医疗模式;(2)EHRs数据包含丰富的医疗项目数据,现有的时序模型通常将一次访问记录中的医疗项目作为一个整体进行处理,难以有效捕获医疗项目在时间轴方向上的时序关联关系,导致模型难以精准捕获医疗项目中蕴含的时序模式;(3)在时序医疗数据挖掘任务中,现有的时序模型仅依赖当前患者的信息做出预测,未能显式地考虑相似患者的行为对当前患者的影响,导致模型难以充分利用相似患者蕴含的医疗模式信息;(4)在时序医疗数据挖掘任务中,时序模型的可解释性具有不可忽视的意义,现有的模型或缺乏可解释性机制、或依赖于精心设计的结构,缺乏可解释性将导致模型难以应用于实际的临床决策,精心设计的可解释性结构又反向限制了模型自身的灵活性,导致模型的表示学习能力受到制约。为此,本文基于EHRs数据,开展了时序模式挖掘方法和模型可解释性方法的研究,具体研究内容如下:(1)针对现有的模型难以有效利用不规则的时间间隔信息、难以有效融合不同时间粒度的时序数据的问题,本文提出了基于不规则时间间隔感知和多粒度时间序列融合(Irregular Time-interval Aware and Multi Granularity Time-series Fusion,记为ITMGT)的表示学习模型。该模型基于多序列输入处理不同类型的时序医疗数据,从而实现不同类型的时序医疗数据的有效嵌入;基于不同时间粒度对多序列医疗数据进行融合,以捕获多序列输入数据之间的交互关系;最后,基于面向多粒度时序序列的注意力机制实现对时序医疗数据在时间轴方向上的权重分配,使模型关注重要的数据并根据多粒度时序模式进行预测。(2)针对现有的时序模式挖掘方法难以捕获复杂的医疗项目之间的时序关联关系的问题,本文提出了基于信息传播的细粒度时序关联关系(Fine-Grained Temporal Association,FGTA)表示学习模型。该方法首先将相邻两次就医记录的医疗项目构成一个二分图,图中的边由前一次就医记录的医疗项目指向后一次就医记录的医疗项目,表示相邻医疗项目之间的时序关联关系;然后,基于信息传播的神经网络模型用于捕获这种细粒度的时序关联关系;最后,与现有的时序模型相结合,以实现细粒度的时序关系的表示学习和医疗项目的表示学习。(3)针对现有的时序模型未能显式地考虑相似患者的行为对当前患者的影响的问题,本文提出了 一种面向相似患者感知的事件图神经网络(Event Graph Neural Network,记为EGNN)表示学习模型。首先,EHRs数据被建模为包含时序信息的就医图,其中,患者与患者通过所患疾病、历史就诊医院等信息获得关联关系,患者的就医时序信息通过事件节点获得关联关系;随后,基于图神经网络表示学习方法,模型对常规类型的邻居和事件类型的邻居分别执行基于注意力的聚合和基于门控机制的聚合,从而在学习患者的时序信息时,利用图神经网络的感知域获取相似患者的行为信息,增强模型的表示学习的能力。(4)针对现有的时序模型难以获得可解释性的问题,本文提出了一种模型无关的面向深度学习模型的个性化风险因子评估(Personality Risk Factor Evaluation,记为PRFE)方法,从而为智能医疗模型提供可解释性。该方法将基于深度学习的风险预测模型视为多变量函数,通过迭代生成风险变化的最速路径,并基于该路径计算各个特征的累积风险,从而为时序模型提供可解释性。综上所述,本文提出了多种时序模式挖掘方法,以准确挖掘EHRs时序数据中的隐含信息,并对预测结果提供个性化的可解释性分析。在本文中,选取了临床应用中典型的生存预测任务和疾病预测任务,基于MIMIC-Ⅲ和MIMIC-Ⅳ数据集进行了充分的实验,验证了本文所提方法的有效性。
其他文献
学位
第一部分 ANKHD1对结直肠癌放射敏感性的影响目的:探究ANKHD1对结直肠癌放射敏感性和DNA损伤修复的影响。方法:(1)克隆形成实验检测ANKHD1沉默对结直肠癌放射敏感性的影响;(2)彗星实验、流式细胞术、免疫荧光实验和WB实验检测ANKHD1沉默对电离辐射后结直肠癌细胞DNA损伤修复的影响;(3)流式细胞术和WB实验检测ANKHD1沉默对电离辐射后结直肠癌细胞周期和细胞凋亡的影响。结果:
学位
胰腺癌(pancreatic cancer)是恶性程度极高、预后极差的实体肿瘤之一,5年生存率低于5%,目前常用的肿瘤治疗方案(如手术、放疗、化疗和免疫治疗等)都没有令人满意的疗效,亦缺乏有效的分子靶向治疗方案。理解胰腺癌的发生发展机制,对于进一步开发或改进治疗方法具有重要意义。白介素-6(interleukin6 IL-6)是一个重要的促炎因子,编码基因位于7号染色体短臂15.3区域(Chr-7
学位
学位
目的:放射治疗是肿瘤综合治疗的一个重要组成部分,65~75%的癌症患者治疗过程中需要用到放疗。放疗利用电离辐射的直接作用造成DNA断裂和间接作用产生活性氧(Reactive oxygen species,ROS),进而损伤生物大分子,两方面的生物学效应对肿瘤细胞发挥杀伤作用。然而,电离辐射对肿瘤组织物理力学特征的影响依旧知之甚少。细胞通过力学感受器接收外界物理力学信号,并由细胞骨架系统产生相对应的
学位
研究背景:肝脏是对电离辐射敏感的器官,放射性肝损伤(Radiation-induced liver damage,RILD)是原发性肝癌、胃肠消化道肿瘤等上腹部肿瘤放射治疗,或异体骨髓或造血干细胞移植准备过程中常见的剂量限制毒性反应和并发症,然而其发生分子机制迄今仍未被阐明。脂质代谢紊乱在多种生理、病理过程中发挥重要调控作用,尽管有研究表明脂质代谢紊乱可能与放射性肝损伤密切相关,但其在电离辐射诱导
学位
酿酒酵母(Saccharomyces cerevisiae)是一种重要的真核模式微生物,被广泛地应用于基础研究和各种化学品的生产。在代谢工程中,关键代谢途径中多个相关基因的高效、精准地调控是至关重要的。簇状有规律间隔短回文重复序列(Clustered Regularly Interspaced Short Palindromic Repeats,CRISPR)介导的转录调控能够实现复杂的基因表达编
学位
几丁质是海洋中最丰富的生物质资源,其在自然界中以结晶形式存在。尽管全球水生环境中每年会产生超过1011吨的几丁质,但是海洋沉积物中几丁质的积累量很少,表明海洋微生物在海洋几丁质的降解和再循环中发挥着重要的作用。但是,到目前为止,海洋微生物降解几丁质的机制还不是完全清楚。近年来,裂解多糖单加氧酶(lytic polysaccharide monooxygenases,LPMOs)驱动的氧化降解被发现
学位
海洋每年从大气吸收的人为来源的CO2("CANT")约占全球每年CO2排放量的四分之一,从而显著缓解了大气CO2升高和全球变暖。西北太平洋是全球最重要的连续生态系统之一,也是整个太平洋最强的大气CO2年净汇区,然而迄今为止,关于西北太平洋固碳、储碳及输运机制的问题在我国研究甚少,也是国际海洋碳循环研究的薄弱环节。本论文以西北太平洋为研究对象,旨在进一步解析西北太平洋固碳、储碳及输运机制,这对了解C
学位
恶性脑胶质瘤侵袭性强、易复发,患者预后差,5年生存率低于5%。一个主要原因就是血脑屏障(BBB)阻碍了大多数药物向脑肿瘤的递送。目前临床标准的治疗方法是手术切除,并结合化疗(主要是替莫唑胺)和/或放疗,但疗效并不理想,且化疗具有不可避免的毒副作用。针对这些问题,本论文设计了一系列既能穿透BBB、又能靶向脑肿瘤的表面偶联ApoE多肽、生物可降解含二硫戊环三亚甲基碳酸酯(DTC)的双硫交联纳米药物,用
学位