论文部分内容阅读
目的以广泛性焦虑障碍(generalized anxiety disorder,GAD)和惊恐障碍(panic disorder,PD)住院患者为研究对象,利用社会人口学、临床特征和生物学指标构建焦虑障碍数据库,基于随机森林(random forest,RF)方法来探索预测慢性化焦虑的临床及生物学标记,为临床的早期识别提供简单、可行的预测指标,为GAD和PD的个体化精准医疗提供参考。方法1.构建焦虑障碍数据库:回顾性收集2014年5月至2021年5月于郑州大学第一附属医院精神医学科就诊的1103例GAD或PD住院患者的临床资料,建立包括社会人口学资料、临床特征和生物学指标等方面的数据库。2.统计学分析:采用SPSS 26.0统计学软件进行一般数据分析,P<0.05表示差异有统计学意义。利用Python 3.7.6编程语言,基于均衡随机森林(RF)分类算法构建预测模型,采用循环10次的10-折交叉验证法评估模型拟合性能,并获取变量重要性排序,筛选最佳预测变量。结果1.焦虑慢性化患者的筛选根据入组标准和排除标准,共纳入1 121例患者,其病程分布特征为非正态分布,排除“1年<病程<2年”仅有的18例患者;将“病程≥2年”自定义为慢性组(简称GAD/PD-C组,共429例),“病程≤年”自定义为非慢性组(简称GAD/PD-NC组,共674例),最终共纳入1103例。2.两组的一般情况及临床资料比较比较429例GAD/PD-C组与674例GAD/PD-NC组的社会人口学及临床特征发现,性别、年龄、诊断亚型、首发年龄、诱因、个性倾向、系统药物治疗和精神疾病家族史差异具有统计学意义(P<0.05),其他特征差异无统计学意义(P>0.05)。比较GAD/PD-C组与GAD/PD-NC组的生物学指标发现,CRP、NLR、ACTH16 点、Cor16 点、TT4、FT4、PRL、E2、PROG、TESTO、Urea、T-CHO、TG、APOB、LDL和ACE水平差异具有统计学意义(P<0.05),其他指标差异无统计学意义(P>0.05)。3.RF模型的构建,计算变量重要性值将临床数据分为社会人口学、临床特征和生物学指标(包括炎症、内分泌和代谢水平)三个领域,仅纳入缺失值不超过30%的变量,使用多重插补法以获得完整数据集,最终共纳入50个预测变量。基于混合矩阵计算各领域的AUC值、准确度、灵敏度、特异度、阳性预测值(PPV)、阴性预测值(NPV),并根据AUC值来衡量预测模型性能。首先,将诊断亚型(GAD和PD)作为其中一个预测变量,对于焦虑障碍慢性化(GAD/PD-C)的RF预测模型,通过其变量重要性排序发现,除了首发年龄、年龄外,几乎所有的临床变量贡献度都低于生物学变量。本研究还发现,临床特征领域AUC值优于生物学领域,而社会人口学特征领域的AUC值最低,综合模型的AUC值(0.65)优于任何领域,准确度为65%,灵敏度为63%,特异度为 66%,PPV 为 0.55,NPV 为 0.74。进一步地,对诊断亚型GAD和PD分别分析。对于广泛性焦虑障碍慢性化(GAD-C)的RF预测模型,通过其变量重要性排序发现,首发年龄对模型的贡献最大。本研究还发现,在GAD-C中,临床特征领域AUC值略优于生物学领域,综合模型的AUC值(0.65)优于任何领域,准确度为65%,灵敏度为65%,特异度为 66%,PPV 为 0.58,NPV 为 0.73。对于惊恐障碍慢性化(PD-C)的RF预测模型,通过其变量重要性排序发现,FT4水平对模型的贡献最大。本研究还发现,在PD-C中,生物学领域的炎症水平和代谢水平的AUC值略占优势,其次是临床特征领域,而综合模型的AUC值仅为0.57,准确度为57%,灵敏度为57%,特异度为57%,PPV为0.41,NPV为 0.72。4.RF模型的优化,筛选最佳预测变量尽管涉及多种变量,GAD/PD-C初步的综合模型预测准确度仅为65%。本研究根据变量重要性排序尝试逐步排除不重要的变量,以优化模型。结果显示,在GAD/PD-C预测模型中,逐步排除不重要变量至含有前12个预测变量(依次为首发年龄、年龄、FT4、TESTO、HCY、PRL、ACE、UA、TSH、PLT、PROG、NLR)时,即开始显示较好的预测价值,AUC值为0.72(>0.70),此时的准确度为72%,灵敏度为68%,特异度为75%(均>60%);其中含有前2个预测变量(即首发年龄和年龄)时,RF优化模型的预测价值最高,AUC值0.97,准确度为97%,灵敏度为97%,特异度为97%,PPV为0.95,NPV为0.98。在GAD-C预测模型中,逐步排除不重要变量至含有前14个预测变量(依次为首发年龄、年龄、PRL、HCY、FT4、TESTO、CRP、LH、ACE、Urea、NLR、UA、TSH、PROG)时,即开始显示较好的预测价值,AUC值为0.71(>0.70),此时的准确度为71%,灵敏度为70%,特异度为72%(均>60%);其中含有前2个预测变量(即首发年龄和年龄)时,RF优化模型的预测价值最高,AUC值为0.96,准确度为96%,灵敏度为94%,特异度为97%,PPV为0.96,NPV 为 0.96。在PD-C预测模型中,比较优化后的PD-C相关RF模型参数未发现较好的预测模型,相对而言,逐步排除不重要变量至含有前1 1个预测变量(依次为FT4、SOD-1、TESYO、CREA、Mono、首发年龄、PLT、TG、CRP、ACE、UA)时,RF优化模型的AUC值最高仅为0.61,准确度为62%,灵敏度为57%,特异度为 64%。结论1.首发年龄较早、年龄偏大可能是GAD或PD慢性化的重要预测因素。2.生物学因素的纳入在一定程度上提高了综合模型的预测准确度,提示免疫内分泌紊乱和代谢失调可能影响GAD或PD慢性化轨迹;其中,甲状腺激素偏低可能对GAD或PD慢性化的预测更敏感。3.与GAD相比,PD慢性化预测模型的预测价值较低,提示PD慢性化机制可能更为复杂、多因。