论文部分内容阅读
背景糖尿病肾病(Diabetic Nephropathy,DN)已成为我国慢性肾脏病(Chronic kidney disease,CKD)及终末期肾脏病(End stage renal disease,ESRD)最常见的病因之一,也是透析及肾脏病相关住院治疗的最主要病因。近年的研究发现,由于DN临床表现较强的异质性,白蛋白尿、肾小球滤过率(Glomerular Filtration Rate,GFR)及肾小球病理改变等传统指标不能完全描述所有DN患者的病情进展和预后,可能需要一种能结合病史、实验室检查结果、肾脏功能影像、病理改变及糖尿病治疗方案等多种信息做出整体评估的预后预测手段,但通过传统方法较难实现。人工智能(Artificialintelligence,AI)技术有能对不同来源的大数据信息综合利用的优势,目前已广泛应用于疾病预测、预后分析、图像识别等多个领域。糖尿病肾病方面,AI技术目前主要见于发病及进展为ESRD的危险因素分析及肾小球病理改变的识别。本研究采集北京协和医院接收肾脏病理确诊DN的患者的临床、病理及随访资料,旨在利用机器学习及深度学习方法结合临床及病理信息建立DN的预后预测模型。研究目的1.建立肾脏病理确诊DN患者的回顾性多模态队列;2.使用聚类分析对数据分类,验证分类模型在预后预测中的价值,并与传统分析方法的结果进行比较;3.使用深度学习实现DN肾脏病理的图像分割和半定量分析;4.使用有监督机器学习建立DN的预后预测模型,并尝试将临床与病理指标进行决策融合。研究方法1.回顾性队列建立及初步分析收集2012年12月至2021年12月在北京协和医院住院完善肾脏病理确诊为DN的患者(n=247)的病史资料、随访资料、实验室检查并扫描病理切片;对未在我院定期随访的患者进行电话随访获知肾脏预后,筛查在不同预后的患者间有显著性差异的临床指标,使用COX回归分析确定不良预后的危险因素。2.聚类分析建立预后模型使用极大似然估计对补全缺失数据,主成分分析对数据进行标准化。以Python编写K均值聚类、层次聚类及SOM聚类尝试对数据集进行分类,比较患者在6月、1年和2年的肾脏生存情况以及肌酐、24小时尿蛋白定量(24-hour urinary protein,24hUP)等临床指标是否有显著性差异。以去除该变量后模型误判数为标准衡量各变量在聚类模型中的权重。3.深度学习辅助病理读片对50例DN患者的PASM染色病理图像中的肾小球(包含正常小球、球性硬化、K-W结节)及正常和损伤的肾间质进行人工标注,使用Python编写6种深度学习算法进行训练,选择准确率最高的方法建模并根据临床知识引入后处理方法。评估模型的分割准确率,并使用本模型分割全部患者的病理图像,根据模分割结果计算肾间质损伤率及肾小球硬化率,与病理专家给出的金标准对比。此外对MASSON染色中的非间质成分(肾小球、血管、髓质等)进行标注剔除,对剩余区域进行颜色聚类建立间质纤维化评估模型;将课题前期工作中建立的恶性高血压辅助读片模型使用DN患者数据进行迁移学习;比较三种不同方法对肾间质损伤率的评估准确率。4.机器学习建立预后模型将数据集按4:1分割训练集及测试集,以是否达到终点为分类标准,尝试使用8种有监督机器学习算法分析临床指标训练建立预测模型,评估各模型的分类准确率。选取准确率较高的模型尝试与深度学习模型的评估结果进行决策融合,初步尝试建立多模态预测模型。5.AI模型的准确率评估使用准确率、精确度、召回率及F1值作为标准判断模型的分类或分割效能,并绘制ROC曲线并计算AUC值;对于机器学习模型额外使用决策曲线分析评估临床应用价值。以上方法编写及绘图均使用Python进行。6.统计方法定量特征首先进行Kolmogorov-Smirnov正态性检验。如符合正态分布,则以平均值±标准差描述数据分布,使用t检验判断组间差异的显著性;如不符合正态分布,则以中位数及四分位距描述数据分布,使用Wilson秩和检验判断组间差异的显著性。卡方检验判断不同分组间定性特征是否存在显著性差异。上述统计学方法均使用Python编写,以双侧检验P<0.05为存在显著性差异。研究结果1.共纳入247例DN患者,男性159例,女性88例,男女比例为1.8,平均年龄为52岁。患者糖尿病发病年龄中位数为42岁,病程中位数为10年;62%患者伴有大量蛋白尿,57.5%存在肾功能不全。203例患者有完整随访,其中100例到达终点,肾脏中位生存时间2年。多因素Cox回归提示到达终点的独立危险因素包括蛋白尿、高血压3级和低eGFR。2.聚类分析可将患者分为两类,不同类别间6个月(OR=3.06,95%CI(1.05,8.92))、1 年(OR=4.00,95%CI(1.65,9.70))及 2 年(OR=2.46,95%CI(1.78,3.40)肾脏生存率存在显著性差异;24hUP、尿红细胞、血红蛋白、白蛋白等临床指标也存在显著性差异,但血肌酐及eGFR水平无显著性差异。3.使用的不同深度学习算法中Swin-Transormer对糖尿病肾病各病理结构的识别表现最好,建立的模型对正常小球、K-W结节小球和球性硬化的预测F1值可达0.91-0.93,对正常间质和损伤间质预测的F1值可分别达到0.85和0.77。基于上述模型分割结果对肾小球硬化率评估的准确率为68.2%,对IFTA分期的预测准确率为78.7%;恶性高血压辅助读片进行迁移学习的PASM读片模型准确率为55.3%;MASSON染色的颜色聚类模型准确率为27.7%。4.建立模型所用的不同机器学习算法中,LR、XGBoost及AdaBoost预测效果较好。其中在测试集的预测结果准确率最高的是LR和AdaBoost,可达87.8%;ROC最优的是XGBoost和AdaBoost,AUC=0.87;DCA净收益较高的是LR及XGBoost。在上述模型中权重最大的10个指标依次为血氯、高血压分级、肌酐、eGFR、性别、糖尿病视网膜病变、糖尿病起病年龄、游离三碘甲状腺原氨酸、尿潜血和血小板计数。仅基于病理指标建立的预后预测模型AUC=0.71,机器学习模型与病理模型评估的初步结果建立的融合模型AUC=0.84。结论在本研究的肾脏病理确诊DN患者队列中:1.肾功能损害突出,肾小球滤过功能下降明显,绝大多数合并蛋白尿,到达终点的患者肾脏中位生存时间为2年;多因素Cox分析提示DN不良预后的独立危险因素包括蛋白尿、高血压和低eGFR;2.聚类分析提示患者可被分为两种临床分型,两类之间6个月、1年、2年肾脏预后以及24hUP、尿红细胞、血红蛋白、白蛋白等临床指标有显著性差异,但血肌酐及eGFR水平无显著性差异。3.使用Swin-transformer算法的图像分割模型可准确识别正常肾小球和肾间质以及球性硬化、K-W结节、肾间质损伤等病理改变(F1=0.77-0.93),且可对肾间质损伤率及肾小球硬化率进行半定量分析;4.基于XGboost、逻辑斯蒂回归或AdaBoost的机器学习模型能准确的通过患者的病史及实验室检查预测DN预后;但结合机器学习模型及病理图像半定量分析的融合模型目前无明显优势(AUC=0.84)。在预后预测模型中较为重要的指标包括血氯、高血压分级、肌酐、eGFR、性别、糖尿病视网膜病变、糖尿病起病年龄、游离三碘甲状腺原氨酸、尿潜血和血小板计数等。