论文部分内容阅读
随着我国全面二孩及三胎政策的放开,更多的高龄女性将面对生育难题。我国育龄人群的不孕不育率逐年攀升,其中每7-8对夫妇中就有1对存在不孕不育问题。IVF-ET作为治疗不孕不育症的主要手段,为广大不孕不育夫妇带来孕育子代的希望。随着技术的不断发展,IVF-ET治疗成功率有了明显的提高,但仍然不能保证100%成功,只有约1/3的患者可获得活产,多数患者在经历一次甚至几次治疗后仍以失败而告终。IVF-ET治疗结局受多种因素的影响,目前,各种因素对结局的影响大小还不明确。在临床上,对于IVF-ET治疗患者成功率的预测多是基于患者年龄及该中心既往平均成功率,预测精度较差。随机森林算法具有原理简单、实现容易、计算量小等特点,是预测效果较好、分类精度较高的一种集成算法。尤其采用Bagging技术可有效解决复杂模型过拟合问题,同时可计算特征重要性分数,能够对模型预测特征进行重要性排序。因此,借助随机森林算法,探讨影响IVF-ET治疗结局的主要特征,并建立一个基于患者自身特征信息的个体化治疗结局预测模型,对临床诊疗和患者咨询具有重要意义。目的:本研究旨在根据患者不同治疗阶段的医学数据,在进周期前和进周期后分别采用随机森林算法建立IVF-ET患者累积临床妊娠和累积活产的预测模型。同时,基于随机森林算法可计算纳入特征的重要性分数这一特点,对预测累积临床妊娠和累积活产的患者特征进行重要性排序,找出影响治疗结局的主要特征指标,为临床诊疗提供参考。方法:(1)收集2015年7月至2019年12月期间就诊于吉林大学第一医院生殖医学·产前遗传中心行IVF-ET治疗的不孕不育夫妇。根据相应筛选标准共纳入3841对不孕夫妇的4249个取卵周期样本,收集样本中包括年龄等在内的38项特征,以是否获得累积临床妊娠和累积活产作为预测标签,建立数据集。(2)对样本进行预处理和特征分析:①按预测标签进行分组,针对分组后样本不平衡特点,采用随机向上抽样方法进行样本平衡处理,构建平衡后数据集;②采用SPSS 23.0软件对患者特征进行组间差异性比较,筛选出有统计学差异的特征指标;③计算特征间的Pearson相关系数,对高度线性相关的特征进行筛选,去除特征间的多重共线性;④采用有监督的离散化方法对数据集中连续型特征进行离散化处理,并对所有纳入的预测特征进行分段和赋值。(3)基于预测目标,分别使用样本平衡处理前和处理后的数据集构建IVF-ET治疗结局预测模型。为了测试预测模型性能,按照8:2的比例将数据集划分为训练集和测试集。采用Matlab软件自带的随机森林算法,建立进周期前/进周期后的累积临床妊娠预测模型和累积活产预测模型。对每种模型的准确率、查全率、特异性、查准率、F1度量值等性能评价指标进行计算,并绘制ROC曲线,计算曲线下面积。(4)统计随机森林算法中的特征重要性分数,按照该分数对各模型中预测特征进行重要性排序,分析得出IVF-ET治疗结局预测的关键特征和主要特征。结果:(1)原始数据集共纳入4249例周期样本,累积临床妊娠率为70.79%,累积活产率为64.06%。采用随机向上抽样法对样本进行平衡处理后,构建出“妊娠平衡集”和“活产平衡集”,累积妊娠率与累积活产率均为50%,正负样本达到平衡。(2)通过统计学检验及多重共线性分析,共筛选出19项与治疗结局相关的特征用于随机森林预测模型的构建,其中包括进周期前产生的14项特征,和进周期后产生的5项特征。这些特征分别是:周期数、女方年龄、不孕类型、不孕年限、不孕原因、女方分娩史、男方乙肝、精子浓度、精子PR、女方BMI、基础FSH、基础FSH/LH、基础E2、AMH、用药方案、Gn用量、Gn天数、获卵数和可用胚胎数。(3)比较不同模型对累积临床妊娠的预测效果,进周期后妊娠平衡集模型的性能指标最好,其次为进周期前妊娠平衡集模型,再次为进周期后原始数据集模型,最后为进周期前原始数据集模型。四种模型在测试集上的AUC依次为0.9671、0.8926、0.8735 和 0.7001,查全率即灵敏性依次为 81.70%、78.37%、91.18%和 90.85%,特异性依次为 96.17%、83.19%、62.50%和 38.17%。(4)在进周期前累积临床妊娠预测模型中,对14项纳入特征进行重要性排序,女方年龄和AMH是预测妊娠的两个关键特征。基础FSH、基础FSH/LH、基础E2、不孕年限、不孕原因等5项特征是预测累积妊娠的主要特征。(5)在进周期后累积临床妊娠预测模型中,对19项纳入特征进行重要性排序,可用胚胎数和女方年龄是预测妊娠的两个关键特征。获卵数、AMH、Gn天数、Gn用量、不孕年限等5项特征是预测累积妊娠的主要特征。(6)比较不同模型对累积活产的预测效果,进周期后活产平衡集模型的性能指标最好,进周期后原始数据集模型和进周期前活产平衡集模型性能基本一致,进周期前原始数据集模型性能最差。四种模型在测试集上的AUC依次为0.9386、0.8342、0.8316 和 0.6906,查全率依次为 80.88%、85.11%、75.92%和 82.90%,特异性依次为 90.44%、65.57%、73.11%和 46.89%。(7)在进周期前累积活产预测模型中,对14项纳入特征进行重要性排序,女方年龄和AMH是预测活产的两个关键特征。基础FSH、不孕原因、不孕年限、基础FSH/LH等4项特征是预测累积活产的主要特征。(8)在进周期后累积活产预测模型中,对19项纳入特征进行重要性排序,可用胚胎数和女方年龄是预测活产的两个关键特征。获卵数、AMH、精子浓度、女方BMI、不孕年限、Gn天数、Gn用量等7项特征是预测累积活产的主要特征。结论:(1)采用随机向上抽样的样本平衡方法,对研究收集到的不平衡原始数据集做样本平衡处理,增加了随机森林预测模型对少数类样本的学习次数,改善模型对少数类样本的预测效果,进而提升模型整体预测性能。(2)可用胚胎数等进周期后特征对IVF-ET治疗结局有重要作用,增加进周期后特征能够进一步提高模型预测性能。(3)在进周期前,女方年龄和AMH是预测IVF-ET治疗结局的关键特征,基础FSH、不孕原因、不孕年限、基础FSH/LH等4项特征是预测治疗结局的主要特征。(4)在进周期后,可用胚胎数和女方年龄是预测IVF-ET治疗结局的关键特征,获卵数、AMH、不孕年限、Gn天数、Gn用量等5项特征是预测治疗结局的主要特征。