基于随机森林算法的IVF-ET治疗结局预测模型建立及预测特征分析研究

来源 :吉林大学 | 被引量 : 0次 | 上传用户:naonao7949
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着我国全面二孩及三胎政策的放开,更多的高龄女性将面对生育难题。我国育龄人群的不孕不育率逐年攀升,其中每7-8对夫妇中就有1对存在不孕不育问题。IVF-ET作为治疗不孕不育症的主要手段,为广大不孕不育夫妇带来孕育子代的希望。随着技术的不断发展,IVF-ET治疗成功率有了明显的提高,但仍然不能保证100%成功,只有约1/3的患者可获得活产,多数患者在经历一次甚至几次治疗后仍以失败而告终。IVF-ET治疗结局受多种因素的影响,目前,各种因素对结局的影响大小还不明确。在临床上,对于IVF-ET治疗患者成功率的预测多是基于患者年龄及该中心既往平均成功率,预测精度较差。随机森林算法具有原理简单、实现容易、计算量小等特点,是预测效果较好、分类精度较高的一种集成算法。尤其采用Bagging技术可有效解决复杂模型过拟合问题,同时可计算特征重要性分数,能够对模型预测特征进行重要性排序。因此,借助随机森林算法,探讨影响IVF-ET治疗结局的主要特征,并建立一个基于患者自身特征信息的个体化治疗结局预测模型,对临床诊疗和患者咨询具有重要意义。目的:本研究旨在根据患者不同治疗阶段的医学数据,在进周期前和进周期后分别采用随机森林算法建立IVF-ET患者累积临床妊娠和累积活产的预测模型。同时,基于随机森林算法可计算纳入特征的重要性分数这一特点,对预测累积临床妊娠和累积活产的患者特征进行重要性排序,找出影响治疗结局的主要特征指标,为临床诊疗提供参考。方法:(1)收集2015年7月至2019年12月期间就诊于吉林大学第一医院生殖医学·产前遗传中心行IVF-ET治疗的不孕不育夫妇。根据相应筛选标准共纳入3841对不孕夫妇的4249个取卵周期样本,收集样本中包括年龄等在内的38项特征,以是否获得累积临床妊娠和累积活产作为预测标签,建立数据集。(2)对样本进行预处理和特征分析:①按预测标签进行分组,针对分组后样本不平衡特点,采用随机向上抽样方法进行样本平衡处理,构建平衡后数据集;②采用SPSS 23.0软件对患者特征进行组间差异性比较,筛选出有统计学差异的特征指标;③计算特征间的Pearson相关系数,对高度线性相关的特征进行筛选,去除特征间的多重共线性;④采用有监督的离散化方法对数据集中连续型特征进行离散化处理,并对所有纳入的预测特征进行分段和赋值。(3)基于预测目标,分别使用样本平衡处理前和处理后的数据集构建IVF-ET治疗结局预测模型。为了测试预测模型性能,按照8:2的比例将数据集划分为训练集和测试集。采用Matlab软件自带的随机森林算法,建立进周期前/进周期后的累积临床妊娠预测模型和累积活产预测模型。对每种模型的准确率、查全率、特异性、查准率、F1度量值等性能评价指标进行计算,并绘制ROC曲线,计算曲线下面积。(4)统计随机森林算法中的特征重要性分数,按照该分数对各模型中预测特征进行重要性排序,分析得出IVF-ET治疗结局预测的关键特征和主要特征。结果:(1)原始数据集共纳入4249例周期样本,累积临床妊娠率为70.79%,累积活产率为64.06%。采用随机向上抽样法对样本进行平衡处理后,构建出“妊娠平衡集”和“活产平衡集”,累积妊娠率与累积活产率均为50%,正负样本达到平衡。(2)通过统计学检验及多重共线性分析,共筛选出19项与治疗结局相关的特征用于随机森林预测模型的构建,其中包括进周期前产生的14项特征,和进周期后产生的5项特征。这些特征分别是:周期数、女方年龄、不孕类型、不孕年限、不孕原因、女方分娩史、男方乙肝、精子浓度、精子PR、女方BMI、基础FSH、基础FSH/LH、基础E2、AMH、用药方案、Gn用量、Gn天数、获卵数和可用胚胎数。(3)比较不同模型对累积临床妊娠的预测效果,进周期后妊娠平衡集模型的性能指标最好,其次为进周期前妊娠平衡集模型,再次为进周期后原始数据集模型,最后为进周期前原始数据集模型。四种模型在测试集上的AUC依次为0.9671、0.8926、0.8735 和 0.7001,查全率即灵敏性依次为 81.70%、78.37%、91.18%和 90.85%,特异性依次为 96.17%、83.19%、62.50%和 38.17%。(4)在进周期前累积临床妊娠预测模型中,对14项纳入特征进行重要性排序,女方年龄和AMH是预测妊娠的两个关键特征。基础FSH、基础FSH/LH、基础E2、不孕年限、不孕原因等5项特征是预测累积妊娠的主要特征。(5)在进周期后累积临床妊娠预测模型中,对19项纳入特征进行重要性排序,可用胚胎数和女方年龄是预测妊娠的两个关键特征。获卵数、AMH、Gn天数、Gn用量、不孕年限等5项特征是预测累积妊娠的主要特征。(6)比较不同模型对累积活产的预测效果,进周期后活产平衡集模型的性能指标最好,进周期后原始数据集模型和进周期前活产平衡集模型性能基本一致,进周期前原始数据集模型性能最差。四种模型在测试集上的AUC依次为0.9386、0.8342、0.8316 和 0.6906,查全率依次为 80.88%、85.11%、75.92%和 82.90%,特异性依次为 90.44%、65.57%、73.11%和 46.89%。(7)在进周期前累积活产预测模型中,对14项纳入特征进行重要性排序,女方年龄和AMH是预测活产的两个关键特征。基础FSH、不孕原因、不孕年限、基础FSH/LH等4项特征是预测累积活产的主要特征。(8)在进周期后累积活产预测模型中,对19项纳入特征进行重要性排序,可用胚胎数和女方年龄是预测活产的两个关键特征。获卵数、AMH、精子浓度、女方BMI、不孕年限、Gn天数、Gn用量等7项特征是预测累积活产的主要特征。结论:(1)采用随机向上抽样的样本平衡方法,对研究收集到的不平衡原始数据集做样本平衡处理,增加了随机森林预测模型对少数类样本的学习次数,改善模型对少数类样本的预测效果,进而提升模型整体预测性能。(2)可用胚胎数等进周期后特征对IVF-ET治疗结局有重要作用,增加进周期后特征能够进一步提高模型预测性能。(3)在进周期前,女方年龄和AMH是预测IVF-ET治疗结局的关键特征,基础FSH、不孕原因、不孕年限、基础FSH/LH等4项特征是预测治疗结局的主要特征。(4)在进周期后,可用胚胎数和女方年龄是预测IVF-ET治疗结局的关键特征,获卵数、AMH、不孕年限、Gn天数、Gn用量等5项特征是预测治疗结局的主要特征。
其他文献
新清河实验是当代社会学者基于学科反思和价值取向,以知行结合的社会学干预方式投身基层治理实践的有益尝试,也体现了"社会学的行动力"。具备一定条件的学者作为新的行动者在社区治理中发挥了特殊的"中介效应":一方面有助于自下而上的民意表达和公众参与由弱变强,另一方面也促进了社区社会资本培育和主体间关系改善。但学者干预的中介效应受到自身与权力关系以及既有体制、机制的影响而具有权变性等局限。实验也反证了费孝通
期刊
研究背景:肺腺癌(Lungadenocarcinoma,LUAD)是肺癌最常见的病理亚型,属于非小细胞肺癌的一种类型,其多数起源于支气管黏膜上皮,多数病灶在肺外周。肺腺癌初期症状一般不明显,发现时多数已分期较晚,因此肺腺癌患者的5年生存率较低,并且由于其高度异质性,肺腺癌患者的预后很难预测。铁死亡,一种依赖铁的细胞死亡形式,主要特点为脂质过氧化物的致命积累从而诱导铁质细胞死亡,在各种癌症中起作用。
颜真卿,字清臣,唐代著名书法家,是融古开今的开模。唐代继承了魏晋的风习,爱好书法,擅长书法,并使书法的发展达到了前所未有的高度。唐代在政治、经济、文化、外交等方面都有极高的成就,这也为当时的书家研习书法提供了更完善的保障。颜真卿变其他书家的“方”为“圆”,创立了雄伟端庄、雍容大气的书风,与大唐文化相吻合。本文首先研究整个唐朝书风变化,再以颜真卿的社会环境、家庭影响去联系他书法艺术的整个发展脉络。通
目的 分析针灸推拿与康复疗法联合应用于脑卒中偏瘫患者的效果。方法 选取2021年1月至2022年1月新泰市中医医院收治的脑卒中偏瘫患者84例,依据随机数字表法分为对照组和观察组,各42例。予以对照组患者康复疗法,观察组加用针灸推拿治疗,比较两组康复效果。结果 治疗后观察组患者美国国立卫生研究院卒中量表(NIHSS)评分低于对照组,Fug L-Meyer运动功能评定量表(FMA)评分、6 min步行
语文教学中的评价,先活动后评价,评价独立于语言实践之外,是离身性活动。语文课程具有实践性,语言起于身体,语言实践是具身性活动。评价是语文教学的基本组成,是具身性活动,可从语言物理属性、语言行为及语言内容三个维度探索具身性评价内容。具身性评价的落实,需突出学习情境具身性、学习内容具身性以及学习过程具身性策略。语文教学具身性评价体现实践性,具有综合性学习及跨学科学习意义,符合新课标精神,有利于促进学生
目的:建立罗布麻叶破壁饮片的UPLC指纹图谱及有效成分含量测定方法。方法:采用ACQUITY UPLC?HSS T3 C18(100 mm×2.1 mm,1.8μm)色谱柱;以乙腈-0.1%甲酸溶液为流动相,梯度洗脱;流速为0.3 mL/min;检测波长为360 nm;柱温为25℃。采用“中药色谱指纹图谱相似度评价系统(2012版)”进行相似度评价,并对结果进行系统聚类分析(HCA)、主成分分析(
目的:建立黄丝郁金、醋黄丝郁金HPLC指纹图谱,并结合化学计量学探讨黄丝郁金醋炙前后化学成分的差异及潜在质量差异标志物。方法:收集15批四川产黄丝郁金药材并制备醋炙品,建立指纹图谱,进行相似度评价,采用SIMCA-P 14.1软件进行聚类分析、主成分分析、正交偏最小二乘判别分析。结果:建立了黄丝郁金、醋黄丝郁金指纹图谱,均确定了20个共有峰,并指认出2号峰为Bisacurone、3号峰为Bisac
目的:探究大蒜素是否通过钙敏感受体发挥心肌损伤的保护作用并分析其机制,为防治心肌细胞损伤提供理论基础。方法:(1)利用心肌细胞H9c2进行实验,分别使用等量的培养液、10μmol/L异丙肾上腺素、10μmol/L普萘洛尔+10μmol/L异丙肾上腺素、10μg/ml大蒜素+10μmol/L异丙肾上腺素、25μg/ml大蒜素+10μmol/L异丙肾上腺素、50μg/ml大蒜素+10μmol/L异丙肾
在我国,十多年来农产品供给存在时空不均,农产品价格波动频繁且剧烈的问题。我国农作物价格上涨具有明显的结构性特点。也就是说,贴近人们生活的产品价格在上涨。近年来,农产品价格上涨对居民消费价格指数的上涨贡献了约70%。苏北地区是我国重要的农业生产中心,是先进产业密集、城市集中、城市居民密集的地区。选择这一领域开展农业流通体系研究具有重要意义。本研究以苏北地区的特色农产品为研究对象,采用层次分析法,得出