论文部分内容阅读
目的:通过纳入胸痛中心非ST段抬高型心肌梗死(Non-ST segment elevation myocardial infarction NSTEMI)及不稳定性心绞痛(Unstable angina pectoris,UA)患者的临床临床数据建立数据库,对NSTEMI患者的初步诊断进行准确性评价,分别选用Logistic回归方案与机器学习算法构建NSTEMI诊断模型,通过模型性能的综合评价筛选最优模型以提升NSTEMI患者诊断的准确性。方法:第一部分:1)采用连续纳入方式录入2017年1月至2019年12月新疆医科大学第一附属医院及石河子大学医学院第一附属医院胸痛中心非ST段抬高急性冠脉综合征患者的临床数据并建立数据库;2)筛选胸痛中心数据库中于24小时内完成冠状动脉造影(Coronary angiography,CAG)的NSTE-ACS患者作为研究对象并建立实验数据集,以CAG诊断结果作为衡量标准,对实验数据集中NSTEMI患者初步诊断的准确性进行评价;3)采用非条件Logistic回归方案筛选实验数据集中的诊断特征变量,依据诊断特征变量的筛选结果构建Logistic回归诊断模型,利用诊断评价的相关指标对模型性能进行评估;第二部分:1)选用Python 3.6软件的函数包对NSTE-ACS患者的临床数据进行预处理,将数据转换为适合机器学习(Machine learning,ML)算法的数据格式;2)分别采用三种不同类型ML算法进行特征变量筛选,通过算法性能的比较选择最优算法完成诊断特征项筛选;3)依据分类权重及相关系数对筛选所得特征项进行重要性排序,并采用Shapely值描述各特征项的贡献值;4)基于特征项筛选结果建立用于ML模型构建的实验数据集,选用留出法按8:2比例将该数据集分割为训练集、验证集及测试集,利用训练集数据构建ML诊断模型,选择验证集数据对模型的一致性进行验证。第三部分:1)分别纳入指南推荐诊断特征项及ML算法筛选所得特征项构建ML诊断模型;2)基于相同测试集数据,利用模型评价指标对两种特征项纳入方式所构建模型的性能进行评估与比较;3)通过对本研究所构建不同类型ML模型综合性能的评估计与比较,进一步筛选最优模型以提升NSTEMI患者诊断的准确性。结果:第一部分:1)实验数据集共纳入1566例NSTEMI及UA患者,以CAG确诊为衡量标准,NSTEMI患者初步诊断的灵敏度为88.59%,特异度为89.44%,约登指数为0.79,Kappa值为0.78;ROC曲线的AUC值为0.821(95%CI,0.775-0.868);2)基于实验数据集完成特征筛选后所构建的Logistic回归诊断模型纳入的变量包括就诊前心绞痛次数、心电图ST段压低、TIMI评分、红细胞压积(Hematocrit,Hct)、肌酸激酶同工酶(Creatine kinase isoenzyme,CK-MB)、乳酸脱氢酶(lactate dehydrogenase,LDH)、B型利钠肽(B-type natriuretic peptide)以及肌钙蛋白T(Cardiac troponin T,c Tn T)(95%CI,OR=3.467,38.020,1.314,33.745,0.997,1.003,1.000,1.285);3)Logistic回归模型的诊断灵敏度为93.7%,特异度为94.21%,约登指数为873,Kappa值为0.84,ROC曲线的AUC值为0.924;第二部分:1)选用随机森林(Random forest,RF)、Select KBest以及极端梯度提升(Extreme gradient boosting,XGBoost)算法进行特征筛选的性能评价结果中,所用时间的平均值分别为2.09±0.14s、0.51±0.07s及1.85±0.08s;2)依据分类权重及相关系数对特征项的重要性进行排序,排名靠前的特征项分别为c Tn T、LDH、CK以及心电图ST段的改变(95%CI,0.21±0.15,0.11±0.06,0.08±0.005,0.06±0.007);特征变量的Shapely值与重要性排序之间具有一致性,热力图的结果分析表明排序靠前的特征项之间具有较强的关联性;3)依据特征筛选结果所建立的实验数据集共纳入了701条NSTEMI与UA患者数据,采用留出法以8:2比例对数据集进行分割,其中476条数据用于ML模型的训练与验证,225条数据用于测试;4)XGBoost、RF、梯度提升模型(Gradient boosting machine,GBM)、以及朴素贝叶斯(Naive Bayes,NB)算法的学习曲线与验证曲线之间具备较好的拟合。第三部分:1)相较于纳入指南推荐NSTEMI诊断特征项所构建的ML模型,通过ML算法筛选特征所建立的XGBoost、支持向量机、RF、GBM以及逻辑回归模型ROC曲线的AUC值均有所提升(95%CI,P=0.003,0.04,0.036,0.002,0.041);2)XGBoost模型的综合性能优于本研究所构建的其他ML模型,该模型在测试集数据中对NSTEMI及UA诊断的准确率、精确率、召回率及F1积分分别为(95%CI,0.95±0.014,0.94±0.0011,0.98±0.003,0.96±0.007);(95%CI,0.93±0.017,0.96±0.008,0.82±0.014,0.89±0.014),决定系数为0.72,ROC曲线的AUC值为0.97。结论:1)基于本研究所建立的实验数据集,相较于初步诊断评价的各项指标,纳入多特征项构建的Logistic回归诊断模型在NSTEMI诊断的灵敏度、特异度、一致性及准确性方面均有所提升;2)本研究选用的Select KBest算法在NSTEMI诊断特征项筛选中体现了良好的性能,筛选结果与Shapely值计算结果之间具有一致性;XGBoost、RF、NB以及GBM算法的学习曲线与验证曲线之间具有较好的拟合;3)相较于仅纳入指南推荐诊断特征项所建立的ML诊断模型,基于ML算法筛选特征所构建模型的体现出更优异的性能;4)XGBoost与GBM模型的决定系数、PR曲线中的AUC值均优于其他ML诊断模型,在以准确度、精确度、召回率以及F1积分等指标进行的模型评价结果中,XGBoost模型表现出较为均衡的性能。