中文电子病历深度表型表征算法开发及其应用研究

来源 :北京协和医学院 | 被引量 : 0次 | 上传用户:ahqmchy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
电子病历中的表型描述大多为非结构化的自由文本,无法直接用于临床研究。电子病历的深度表型表征算法可以高保真地结构化电子病历中的表型信息,日益成为医学信息学界的研究焦点。我国拥有丰富的电子病历资源,然而由于中文医学本体不完善以及细粒度标注数据的缺失,发展中文电子病历深度表型表征算法面临着巨大挑战。在这种低资源条件下,探索如何利用有限的细粒度标注数据集开发出具有泛化能力的中文电子病历深度表型表征算法,具有重要意义。本研究想要发展出一种基于有限标注语料学习表型描述的语言模式,并基于所学习的语言模式对中文电子病历进行深度表型表征的算法。在该研究中,首先,基于一种用于深度表型表征中文电子病历的语义信息模型-PhenoSSU模型,对1000份中文电子病历进行了人工标注,并将之按照7:3的比例分为训练集和测试集。随后,将训练集中的自由文本编码为单字母序列(如表型编码为P、属性编码为A),然后使用生物序列模式分析挖掘工具MEME模体挖掘工具分析该单字母序列中表型(P)-属性(A)的组合表达模体,并进一步基于这些模体抽象出PhenoSSU在文本中以正则表达式表征的语言表达模式。基于PhenoSSU的语言模式,本研究中发展了一种中文电子病历的深度表型表征算法,包括基于深度学习模型的实体识别算法与基于模式识别的属性预测算法。之后,将本研究中开发的算法应用于两个真实世界的案例研究:基于慢性支气管炎电子病历的深度表型表征更新其诊疗指南;基于体检电子病历的深度表型表征构建甲状腺疾病预测模型。通过将训练集中的电子病历表征为单字母序列,本研究使用MEME模体挖掘工具共计得到51个具有统计学意义的序列模体。这些模体可简并为6个正则表达式,即PhenoSSU模型在中文电子病历中的语言模式。同时本研究发现最少基于134(+/-9.7)份人工标注的电子病历即可学习到这6个正则表达式。通过在测试集上的算法评估,本研究中开发的算法在PhenoSSU层次上可取得F*WA=0.844的算法表现。其中,对于实体识别任务,本研究采用了 BERT-BiLSTM-CRF深度学习模型,可取得F1-score 0.898的算法表现;对于表型关联的属性预测任务,本研究使用了基于语言模式识别的方法,可取得加权准确率0.940的算法表现,相较之下,基于传统机器学习策略的SVM算法的加权准确率为0.709。本研究通过两个案例研究证明了算法潜在的应用前景:通过慢性支气管炎的病历与指南在PhenoSSU层面的对比,证明了基于电子病历更新指南的可能;基于体检电子病历的深度表型表征,本研究中构建了一种可以预测体检人群促甲状腺激素异常的机器学习模型。在缺少细粒度标注语料的低资源场景下,本研究发展了一种简单高效的中文电子病历深度表型表征算法。本工作将有助于提升中文电子病历资源的转化利用,同时给世界上其它非英语国家发展电子病历深度表型表征算法提供启发。
其他文献
铁电压电材料作为电子功能材料,广泛应用于传感器、变压器和滤波器等器件中,在人工智能时代发挥着不可替代的作用。近年来,为了环境保护与可持续发展,无铅压电陶瓷因其环境友好型受到了广泛关注和研究。然而相比于经典铅基体系,无铅压电陶瓷仍存在重复性差、压电性低、温度稳定性差等缺陷,尚难以满足功能器件的应用需求。本论文以铌酸钠及钛酸钡基无铅压电陶瓷为研究对象,通过化学替代、氧八面体畸变调控及离子团簇设计等方法
学位
背景非酒精性脂肪肝疾病(Non-alcoholic fatty liver disease,NAFLD)是全球最常见的慢性肝病,约25%的人患有此病。近年来,肠道菌群在NAFLD发生发展中的作用备受关注。课题组前期发现高产乙醇肺炎克雷伯菌(High Alcohol-producing Klebsiella pneumoniae,HiAlc Kpn)是NAFLD的潜在致病因子。但HiAlc Kpn在
学位
期刊
背景:神经管畸形(neural tube defect,NTDs)是胎儿和新生儿中最严重的中枢神经系统先天畸形,可导致患者死亡或不同程度的残疾,为家庭和社会带来沉重负担。碳酸锂(lithium carbonate,Li2CO3)作为一种一线心境稳定剂在临床上被广泛应用于躁狂症、双相情感障碍(bipolar disorder,BPD)等疾病的治疗。研究已表明锂离子对早期胚胎发育有深远影响,围孕期双相
学位
近年来,基于自由基的偶联反应获得了快速的发展,相对于传统的过渡金属催化的偶联反应,它具有独特的化学反应特性。例如,基于自由基的两亲电试剂之间的交叉还原偶联反应,两亲核试剂之间的氧化偶联反应等。随着自由基参与的偶联反应的深入研究,自由基化学在有机合成中的应用也越来越多。但应用在复杂天然产物的全合成研究中则具有很大的挑战性,主要的原因是:(1)许多产生自由基的方法不适用于复杂底物;(2)自由基的反应活
学位
高炉软熔带与高炉炉况密切相关,不仅支配着高炉内气固液多相的流动状态,而且对高炉内的热交换具有重要影响。对高炉软熔带物相演变行为进行系统全面的研究,是应对新形势下高炉原料调整的挑战,实现高炉高效低碳冶炼的关键。本文基于国内首座1000 m3以上高炉软熔带实际取样结果,系统解析软熔带渣相组成并明确软熔带主要渣系分布;通过实验模拟还原软熔带炉料状态,明确软熔带渣相的主要形成路径;结合扩散耦实验与分子动力
学位
疟疾是主要由恶性疟原虫和间日疟原虫引起的严重传染病,2020年,全球报告了约2.41亿疟疾病例,其中约有627,000人死于该疾病,五岁以下的儿童占疟疾死亡人数的77%。青蒿素联合疗法(ACTs)是世界卫生组织推荐的最有效的临床治疗疟疾感染的方法,然而传统的植物提取易受季节、地域的影响导致青蒿素产量不稳定,无法满足商业化的大量需求。合成生物学的发展为天然药物的生物合成提供了新的思路,Keaslin
学位
背景 高龄以及极高龄的冠心病患者数量正在快速增加,但指南并未对高龄人群的再血管化策略做出明确推荐,本研究拟探讨75岁以上冠心病患者外科再血管化的预后与危险因素。方法 本研究为回顾性队列研究,连续纳入2012年1月至2021年12月间于中国医学科学院阜外医院住院手术治疗的1418例年龄大于75岁的冠心病患者。采用倾向性评分匹配调整两组基线差异,采用Logistic回归模型,Cox回归模型寻找导致患者
学位
铁电材料作为步入信息时代后尖端科技中的关键性基础材料,广泛应用在移动通信、超声换能、航空航天等领域。目前,铁电材料研究中的关键问题包括,明晰决定铁电性的共性关键因素,准确预测相结构及其与性能关系,并最终实现高性能材料设计。然而,影响铁电材料结构和性能的物理因素非常复杂,化学成分、微观组织、晶相组成等多方面因素构成了一个复杂高维的搜索空间,传统的试错法实验研究以及第一性原理计算等计算模拟研究在铁电材
学位
CRISPR/Cas(Clustered Regularly Interspaced Short Palindromic Repeats/CRISPR associated)系统是一种高效的基因编辑系统,也是现阶段应用最广泛的基因组编辑工具,但是由于在基因编辑过程中存在DNA双链断裂导致的基因编辑产物异质性以及染色体不稳定性等问题,研究人员将产生DNA单链断裂的Cas9切口酶与脱氨酶或者逆转录酶融
学位