论文部分内容阅读
第一部分增强CT及MR影像组学特征预测直肠癌异时性肝转移目的:应用基于不同机器学习算法的增强静脉期CT及MR影像组学模型预测直肠癌异时性肝转移(metachronous liver metastases,MLM),并比较其价值。材料与方法:回顾性分析76例在我院治疗及规律随访的直肠癌患者,治疗前腹盆增强CT扫描均未发现肝转移。根据随访结果将患者分为24个月内MLM组(N=38)和无肝转移(non metachronous liver metastasis,nMLM)组(N=38)。比较两组间基线临床指标(年龄、性别、T分期、N分期、肿瘤标记物CEA及CA19-9)。对直肠癌原发灶增强CT、MR图像进行分割,分别提取了 1029个影像组学特征。应用最小绝对值收缩与选择算子(least absolute shrinkage and selection operator,LASSO)法分别对增强CT(1029个特征)、增强MR(1029个特征)以及两序列联合(2058个特征)提取的影像组学特征进行降维处理。采用五折交叉验证方法和六种机器学习算法(决策树,decision tree,DT;梯度提升,gradient boosting,GB;K-近邻,K-nearest neighbor,KNN;逻辑回归,logistic regression,LR;随机森林,random forest,RF;支持向量机,support vector machine,SVM)构建预测模型,不同模型的预测效能应用受试者工作特征(receiver operating characteristic,ROC)曲线及混淆矩阵评估,评价指标包括模型的准确性、灵敏度、特异性和曲线下面积(area under the curve,AUC)。结果:MLM组与nMLM组间基线临床指标无明显统计学差异(P<0.05)。应用LASSO算法分别从三个序列中筛选获得1个、4个和5个与MLM相关特征,构建三组预测模型。CT模型中,应用六种算法均未获得效能较好的预测模型(AUC值范围0.439~0.640)。MR模型中,应用LR算法(AUC值0.750±0.137)和SVM算法(AUC值0.764±0.128)可获得预测效能较好的模型,余四种模型效能较差(AUC值均<0.7)。联合模型中,同样应用LR算法(AUC值0.742±0.101)和SVM算法(AUC值0.718±0.069)可获得预测效能较好的模型,但未能进一步提高MR模型的MLM预测能力。结论:增强静脉期MR模型对直肠癌MLM有较好的预测效能,且LR和SVM算法优于其它机器学习算法;增强静脉期CT模型预测MLM价值有限,联合模型不能进一步提高MR模型的预测效能。第二部分基于机器学习的直肠癌MR影像组学分析在预测异时性肝转移中的价值目的:基于不同机器学习算法的MR影像组学模型预测直肠癌异时性肝转移(metachronous liver metastasis,MLM)。材料与方法:回顾性分析108例直肠癌患者,MLM组54例,无肝转移(non metachronous liver metastasis,nMLM)组54例。比较两组间基线临床特征(年龄、性别、T、N分期、肿瘤标记物CEA及CA19-9)。特征筛选和模型构建应用Python语言完成。在MR T2WI和增强静脉期(venous phase,VP)序列手动逐层勾画病变的体积感兴趣区(volumes of interest,VOIs),每个VOI提取1029个影像组学特征,应用最小绝对值收缩与选择算子(least absolute shrinkage and selection operator,LASSO)法在T2WI序列(1029个特征)、增强VP序列(1029个特征)以及两序列联合(2058个特征)中进行特征筛选,采用五折交叉验证方法和两种机器学习算法(支持向量机,support vector machine,SVM;逻辑回归,logistic regression,LR)分别构建预测模型,模型的预测效能由受试者工作特征(receiver operating characteristic,ROC)曲线评估,评价指标包括准确性、灵敏度、特异性和曲线下面积(area under the curve,AUC),并采用德龙检验进行模型间预测效能的比较。再进行100轮交叉验证检验结果的稳定性。结果:本研究中直肠癌MLM组与nMLM组间基线临床特征均无明显统计学差异(P>0.05)。最终筛选获得与MLM相关特征:T2WI特征5个、增强VP特征8个和两序列组合特征22个;分别构建四组模型,包括T2WI模型(由5个最优T2WI特征集构建),VP模型(由8个最优静脉期特征集构建),T2WI+VP模型(由两序列分别筛选出的共13个特征集构建)和T2WI/VP模型(由两序列联合共2058个特征中筛选的22个最优特征集构建)。VP模型中,应用LR算法(AUC=0.74,95%CI:0.57,0.75)的模型预测效能明显优于SVM算法(AUC=0.68,95%CI:0.56,0.72)(P=0.0303)。应用LR算法获得的T2WI/VP模型的MLM预测效能明品优于其他三种模型(P=0.0019,0.0028和0.0081),其准确性、灵敏度、特异性和曲线下面积分别为0.80、0.76、0.83和0.87。100轮交叉验证证实结果具有较高的稳定性。结论:治疗前直肠癌MR影像组学模型具有较高的MLM的预测效能,尤其是应用LR算法构建的T2WI/VP模型效能最佳。此外,除了 VP模型中LR算法优于SVM算法,其余三组模型的两种算法间并无显著差异。第三部分基于机器学习的全肝CT影像组学模型预测直肠癌异时性肝转移目的:应用机器学习算法、基于治疗前“无病”全肝增强门静脉期CT影像组学模型预测直肠癌异时性肝转移(metachronous livermetastases,MLM)。材料与方法:本研究回顾性分析88例首诊无肝转移的直肠癌患者,根据随访结果分为 24 个月内 MLM 组(N=44)和无转移(non metachronous liver metastases,nMLM)组(N=44)。基线临床特征的统计分析应用SPSS软件。影像组学特征降维及构建模型采用Python语言完成。对治疗前增强门静脉期全肝CT图像进行手动逐层勾画(避开肝内大血管和可见的良性病灶),获得“无病”全肝体积感兴趣区(volumes of interest,VOIs),自动提取1029个影像组学特征。采用最小绝对值收缩与选择算子(least absolute shrinkage and selection operator regression,LASSO)算法对数据降维获得与MLM相关的最优特征。研究中将样本按照8:2的比例随机分为训练集和验证集,使用五折交叉验证及六种机器学习算法(逻辑回归,logistic regression,LR;支持向量机,support vector machine,SVM;决策树,decision tree,DT;K-近邻,K-nearest neighbor,KNN;随机森林,random forest,RF;多层感知器,multi-layer perception,MLP)训练模型,再用验证集病例对模型效能进行验证。获得训练集和验证集的受试者工作特征(receiver operating characteristic,ROC)曲线,模型预测效能的评价指标包括曲线下面积(area under the curve,AUC)、准确性、灵敏度和特异性。结果:MLM组与nMLM组的基线临床特征(包括性别、年龄、T分期、N分期、肿瘤标志物CEA及CA19-9水平)以及临床治疗方式间均无统计学差异(P>0.05)。LASSO算法对全部特征降维处理获得10个与MLM相关的特征。六组模型中,应用LR算法(训练集AUC=0.90±0.06,准确性0.80,特异性0.63,灵敏度0.97;验证集AUC=0.74±0.14,准确性0.67,特异性1,灵敏度0.33)和SVM算法(训练集AUC=0.83±0.10,准确性 0.73,特异性 0.86,灵敏度 0.60;验证集 AUC=0.78±0.10,准确性0.72,特异性0.67,灵敏度0.78)获得的预测模型具有较好的MLM预测效能。而应用DT、KNN、MLP算法构建的预测模型的效能较差,验证集AUC值均低于0.70(AUC值范围0.56~0.69)。结论:“无病”全肝增强CT影像组学模型具有较高预测直肠癌24个月内发生MLM的价值,尤其应用机器学习算法LR和SVM的模型效能更佳。