基于机器学习的影像组学分析在直肠癌异时性肝转移预测中的应用

来源 :北京协和医学院 | 被引量 : 0次 | 上传用户:qwer2
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
第一部分增强CT及MR影像组学特征预测直肠癌异时性肝转移目的:应用基于不同机器学习算法的增强静脉期CT及MR影像组学模型预测直肠癌异时性肝转移(metachronous liver metastases,MLM),并比较其价值。材料与方法:回顾性分析76例在我院治疗及规律随访的直肠癌患者,治疗前腹盆增强CT扫描均未发现肝转移。根据随访结果将患者分为24个月内MLM组(N=38)和无肝转移(non metachronous liver metastasis,nMLM)组(N=38)。比较两组间基线临床指标(年龄、性别、T分期、N分期、肿瘤标记物CEA及CA19-9)。对直肠癌原发灶增强CT、MR图像进行分割,分别提取了 1029个影像组学特征。应用最小绝对值收缩与选择算子(least absolute shrinkage and selection operator,LASSO)法分别对增强CT(1029个特征)、增强MR(1029个特征)以及两序列联合(2058个特征)提取的影像组学特征进行降维处理。采用五折交叉验证方法和六种机器学习算法(决策树,decision tree,DT;梯度提升,gradient boosting,GB;K-近邻,K-nearest neighbor,KNN;逻辑回归,logistic regression,LR;随机森林,random forest,RF;支持向量机,support vector machine,SVM)构建预测模型,不同模型的预测效能应用受试者工作特征(receiver operating characteristic,ROC)曲线及混淆矩阵评估,评价指标包括模型的准确性、灵敏度、特异性和曲线下面积(area under the curve,AUC)。结果:MLM组与nMLM组间基线临床指标无明显统计学差异(P<0.05)。应用LASSO算法分别从三个序列中筛选获得1个、4个和5个与MLM相关特征,构建三组预测模型。CT模型中,应用六种算法均未获得效能较好的预测模型(AUC值范围0.439~0.640)。MR模型中,应用LR算法(AUC值0.750±0.137)和SVM算法(AUC值0.764±0.128)可获得预测效能较好的模型,余四种模型效能较差(AUC值均<0.7)。联合模型中,同样应用LR算法(AUC值0.742±0.101)和SVM算法(AUC值0.718±0.069)可获得预测效能较好的模型,但未能进一步提高MR模型的MLM预测能力。结论:增强静脉期MR模型对直肠癌MLM有较好的预测效能,且LR和SVM算法优于其它机器学习算法;增强静脉期CT模型预测MLM价值有限,联合模型不能进一步提高MR模型的预测效能。第二部分基于机器学习的直肠癌MR影像组学分析在预测异时性肝转移中的价值目的:基于不同机器学习算法的MR影像组学模型预测直肠癌异时性肝转移(metachronous liver metastasis,MLM)。材料与方法:回顾性分析108例直肠癌患者,MLM组54例,无肝转移(non metachronous liver metastasis,nMLM)组54例。比较两组间基线临床特征(年龄、性别、T、N分期、肿瘤标记物CEA及CA19-9)。特征筛选和模型构建应用Python语言完成。在MR T2WI和增强静脉期(venous phase,VP)序列手动逐层勾画病变的体积感兴趣区(volumes of interest,VOIs),每个VOI提取1029个影像组学特征,应用最小绝对值收缩与选择算子(least absolute shrinkage and selection operator,LASSO)法在T2WI序列(1029个特征)、增强VP序列(1029个特征)以及两序列联合(2058个特征)中进行特征筛选,采用五折交叉验证方法和两种机器学习算法(支持向量机,support vector machine,SVM;逻辑回归,logistic regression,LR)分别构建预测模型,模型的预测效能由受试者工作特征(receiver operating characteristic,ROC)曲线评估,评价指标包括准确性、灵敏度、特异性和曲线下面积(area under the curve,AUC),并采用德龙检验进行模型间预测效能的比较。再进行100轮交叉验证检验结果的稳定性。结果:本研究中直肠癌MLM组与nMLM组间基线临床特征均无明显统计学差异(P>0.05)。最终筛选获得与MLM相关特征:T2WI特征5个、增强VP特征8个和两序列组合特征22个;分别构建四组模型,包括T2WI模型(由5个最优T2WI特征集构建),VP模型(由8个最优静脉期特征集构建),T2WI+VP模型(由两序列分别筛选出的共13个特征集构建)和T2WI/VP模型(由两序列联合共2058个特征中筛选的22个最优特征集构建)。VP模型中,应用LR算法(AUC=0.74,95%CI:0.57,0.75)的模型预测效能明显优于SVM算法(AUC=0.68,95%CI:0.56,0.72)(P=0.0303)。应用LR算法获得的T2WI/VP模型的MLM预测效能明品优于其他三种模型(P=0.0019,0.0028和0.0081),其准确性、灵敏度、特异性和曲线下面积分别为0.80、0.76、0.83和0.87。100轮交叉验证证实结果具有较高的稳定性。结论:治疗前直肠癌MR影像组学模型具有较高的MLM的预测效能,尤其是应用LR算法构建的T2WI/VP模型效能最佳。此外,除了 VP模型中LR算法优于SVM算法,其余三组模型的两种算法间并无显著差异。第三部分基于机器学习的全肝CT影像组学模型预测直肠癌异时性肝转移目的:应用机器学习算法、基于治疗前“无病”全肝增强门静脉期CT影像组学模型预测直肠癌异时性肝转移(metachronous livermetastases,MLM)。材料与方法:本研究回顾性分析88例首诊无肝转移的直肠癌患者,根据随访结果分为 24 个月内 MLM 组(N=44)和无转移(non metachronous liver metastases,nMLM)组(N=44)。基线临床特征的统计分析应用SPSS软件。影像组学特征降维及构建模型采用Python语言完成。对治疗前增强门静脉期全肝CT图像进行手动逐层勾画(避开肝内大血管和可见的良性病灶),获得“无病”全肝体积感兴趣区(volumes of interest,VOIs),自动提取1029个影像组学特征。采用最小绝对值收缩与选择算子(least absolute shrinkage and selection operator regression,LASSO)算法对数据降维获得与MLM相关的最优特征。研究中将样本按照8:2的比例随机分为训练集和验证集,使用五折交叉验证及六种机器学习算法(逻辑回归,logistic regression,LR;支持向量机,support vector machine,SVM;决策树,decision tree,DT;K-近邻,K-nearest neighbor,KNN;随机森林,random forest,RF;多层感知器,multi-layer perception,MLP)训练模型,再用验证集病例对模型效能进行验证。获得训练集和验证集的受试者工作特征(receiver operating characteristic,ROC)曲线,模型预测效能的评价指标包括曲线下面积(area under the curve,AUC)、准确性、灵敏度和特异性。结果:MLM组与nMLM组的基线临床特征(包括性别、年龄、T分期、N分期、肿瘤标志物CEA及CA19-9水平)以及临床治疗方式间均无统计学差异(P>0.05)。LASSO算法对全部特征降维处理获得10个与MLM相关的特征。六组模型中,应用LR算法(训练集AUC=0.90±0.06,准确性0.80,特异性0.63,灵敏度0.97;验证集AUC=0.74±0.14,准确性0.67,特异性1,灵敏度0.33)和SVM算法(训练集AUC=0.83±0.10,准确性 0.73,特异性 0.86,灵敏度 0.60;验证集 AUC=0.78±0.10,准确性0.72,特异性0.67,灵敏度0.78)获得的预测模型具有较好的MLM预测效能。而应用DT、KNN、MLP算法构建的预测模型的效能较差,验证集AUC值均低于0.70(AUC值范围0.56~0.69)。结论:“无病”全肝增强CT影像组学模型具有较高预测直肠癌24个月内发生MLM的价值,尤其应用机器学习算法LR和SVM的模型效能更佳。
其他文献
新课程改革对传统教师角色提出了挑战,要求教师彻底地转变思想观念,并要求教师教育从各个方面进行相应的变革.
研究目标分析不同高危型别HPV单一和多重感染状态下子宫颈癌相关危险因素和分子指标的差异,探讨HPV感染状态与子宫颈癌及癌前病变的关系;基于机器学习的方法,利用上述指标构
新媒体的出现.为新媒体阅读提供了强有力的技术支撑和平台支持。总结了新媒体的发展态势,对新媒体阅读概念进行了界定,从传播学的角度对新媒体阅读进行了详细的阐述.从侧面反映新
目的通过分析我国空军招飞定选中疝疾病谱,对比中美招飞医学选拔标准,为完善我军招飞医学选拔体系提供参考。方法回顾性地分析空军医学选拔中心近4年招飞定选受检者疝病数据
目的探讨中美空军飞行学员髂胫束发育不良与挛缩医学选拔标准的异同,并对我军标准的修订提供依据。方法调查我军2012—2015年招飞定选体检中髂胫束发育不良与挛缩淘汰率与综
【正】 聚类分析是数值分类学的一个年青的分枝,是研究如何对样本(或指标)进行分类的统计方法。过去,人们对样本(或指标)进行分类主要靠经验和专业知识来进行,随着生产技术和
为提高水果品质检测精度,针对以FPGA(Field-Programmable Gate Array,现场可编程门阵列)为核心的水果检测系统进行图像增强方法的研究。以柑橘为对象,对水果图像分别进行了高斯算
本文通过分析制约浸入式水口使用寿命的因素,提出了提高烘烤质量、防止吸气、变渣线操作等措施;使浸入式水口的使用寿命由原来的6炉钢提高到了现在的9炉钢,在提高钢水收得率的同
报纸
<正>采用幸福感阶梯量表、生活满意度自编问卷和纽芬兰纪念大学幸福度量表,对广东省422例农村居民进行抽样调查;同时,采用目的性随机抽样,抽取8名农村居民进行个案访谈研究。
针对目前作战方案推演技术中存在的在线评估、优选、优化能力弱等问题,提出了作战方案全要素仿真推演架构,以多编队作战指挥为背景,从要素分析及建模、推演过程控制、效能评