论文部分内容阅读
研究目的:本研究目的是借助深度学习方法,构建基于内镜图像的病变检出和性质判断人工智能模型并评估其临床辅助价值。首先,分别构建白光胃镜和窄带成像(Narrow band imaging,NBI)放大胃镜两种光学模态下的深度学习早期胃癌检出模型,实现早期胃癌病变的“查全”;其次,分别构建白光胃镜胃癌深度判断,NBI放大胃镜早期胃癌分化程度和边界识别模型,实现早期胃癌病变的“查准”;最后,充分验证模型的诊断效能,并评价模型的临床辅助价值,从而为后续的临床转化提高初步数据支持。通过构建早期胃癌检出和性质模型,以期提高早期胃癌诊断水平,实现胃癌个体化治疗。材料与方法:(1)回顾性纳入本中心1364例早期胃癌患者45240张白光胃镜图像,按照时间先后,分为训练集(1085例患者35823张图像)和验证集(279例患者9417张图像)。又纳入另外三家中心60例患者1514张图像作为外部验证集。还纳入了26例患者的26段视频作为视频验证集。本研究使用了YOLOv3进行模型的建立。我们测试了内部验证集和外部验证集中模型的诊断效能,对比了人工智能模型与内镜医师诊断效能的差异,比较了内镜医师在模型辅助前后的诊断表现。我们还测试了模型在视频中的诊断效能。我们使用准确率、敏感性、特异性、阳性预测值、阴性预测值、受试者工作特征曲线下面积(Area under curve,AUC)及一致性Cohen’s Kappa指数来评价诊断的效能。(2)纳入了五家中心的1240例患者21785张NBI放大胃镜图像和20例患者20段视频,其中南京鼓楼医院数据集(1093例患者20208张图像,20例患者20段视频)按照时间段分成了训练集(810例患者13151张图像),时序验证集(283例患者7057张图像)和视频验证集(20例患者20段视频),另外四家中心的数据集(147例患者1577张图像)被分别用作外部验证。本研究使用了基于YOLOv3架构的深度学习算法进行人工智能模型的建立,分别使用图片和视频验证集对模型的诊断效能进行了测试,对比了模型和内镜医师诊断效能的差异。本研究进一步从时序验证集中抽取600张图像作为测试集比较了内镜医师在人工智能模型辅助前后诊断效能的差异。本研究中主要观察指标包括准确率、敏感性、特异性、阳性预测值、阴性预测值、AUC及一致性Cohen’s Kappa指数。(3)回顾性收集两家中心的666例患者3407张白光胃镜图像(训练集)训练Res Net50分类模型判断浸润深度,使用另外62例患者228张图像(测试集)进行模型诊断效能的测试。我们使用测试集和视频测试集(54例患者54段视频)比较了内镜医师在深度学习模型辅助前后的诊断效能。我们进一步通过测试数据集比较了内镜医师在深度学习模型辅助前后的诊断一致性。我们统计了内镜医师的坚毅评分,并探究了其与诊断效能的相关关系。本研究中主要的观察指标是准确率、敏感性、特异性、阳性预测值、阴性预测值、AUC、平均配对一致性Cohen’s Kappa指数及关系数。(4)回顾性纳入了两家中心222例患者3090张图像,其中南京鼓楼医院87例2075张图像用于建立Res Net50分类模型判断分化程度,58例351张图像用于内部验证,无锡市人民医院77例664张图像用于外部验证;南京鼓楼医院中的83例768张图像还用于建立Unet++分割模型,49例160张图像进行内部验证。我们比较了内镜医师与深度学习分类模型在胃癌分化程度中的诊断效能,评估了内镜医师在深度学习分类模型辅助前后诊断效能的变化,还评估了深度学习分类模型辅助下,内镜医师与病理结果以及内镜医师之间诊断一致性的变化。对于分化程度判断模型,主要的观察指标为准确率,敏感性,特异性,阳性预测值,阴性预测值,AUC及一致性Cohen’s Kappa指数;对于边界确定模型,主要的观察指标为Dice,精确度(Precision)和召回率(Recall)。研究结果:(1)白光胃镜早期胃癌检出模型在验证集中敏感性为85.9%–95.5%,特异性为81.7%–90.3%,AUC为0.887–0.940。在测试集中,人工智能模型的诊断准确率(95.3%)高于高年资(87.3%)和低年资(73.6%)内镜医师。内镜医师在模型辅助后,内镜医师的诊断敏感性和特异性都显著提高。人工智能模型诊断的一致性显著高于高年资和低年资内镜医师。人工智能模型可以实现胃镜视频早癌实时识别,敏感性达88.5%。(2)人工智能模型在内部验证集中AUC为0.947,在外部验证集中AUC为0.888–0.951。该模型在视频验证集中诊断敏感性为100.0%。人工智能模型在测试集中的诊断效能(AUC,0.959)显著优于高年资(AUC,0.842–0.880)和低年资内镜医师(AUC,0.777–0.812)。内镜医师在模型辅助后,不同年资的内镜医师的诊断敏感性、特异性、一致性都显著提高。(3)深度学习模型在测试集中的AUC为0.942(95%CI,0.915–0.970),诊断黏膜内癌敏感性为90.5%,特异性为85.3%。在深度学习模型的辅助下,低年资内镜医师诊断黏膜内癌的敏感性为85.4%,特异性为83.3%,准确率为84.6%;高年资内镜医师诊断黏膜内癌的敏感性为87.4%,特异性为83.0%,准确率为85.5%。深度学习模型辅助后,内镜医师诊断一致性提高,内镜医师诊断的时间显著缩短。内镜医师独立诊断准确率与努力评分成正相关,但在深度学习模型辅助后,内镜医师诊断准确率与努力评分不再有相关关系。(4)深度学习分化程度判断模型在验证集中的AUC为0.932,敏感性为90.9%,特异性为91.5%;深度学习胃癌边界确定模型在阈值设为Io U大于0.5时,Dice为0.818,精确度为0.69,召回率为1.00。分化程度判断模型模型诊断效能优于高年资(敏感性,94.7%,特异性63.3%)和低年资(敏感性,68.5%,特异性51.0%)内镜医师。内镜医师在深度学习分类模型的辅助下,诊断效能显著提高,高年资诊断的敏感性和特异性分别为97.7%和84.0%,低年资诊断的敏感性和特异性分别为90.1%和71.6%。内镜医师诊断与病理结果的一致性在模型辅助下都显著提高。研究结论:基于深度学习的早期胃癌检出和性质判断模型具有较好的诊断效能,并能够提高内镜医师病变检出和性质判断准确率和一致性,从而提高早期胃癌诊断水平,实现胃癌患者个体化治疗,推动医疗水平同质化。