论文部分内容阅读
伴随着生活水平的上升,在健康方面,大众防患于未然的意识也逐渐提高。尤其是在怀孕期间,妊娠期糖尿病的风险被提前预测也成为了关系亿万居民家庭的一大需求。智能健康产业的兴起就是为了满足这一新的需求,让孕妇及准孕妇们能尽快了解自己可能遭遇的病情,以便及早防控。同时也因为互联网的迅速发展,很多健康数据已经储存在计算机中,比如说诊断记录、电子档案和病历信息等。随着科学和人工智能的发展,机器学习越发成熟,其分类能力越来越强大和智能化,为预测妊娠期糖尿病提供了一种新的方法。本文基于机器学习及分类器理论,利用从天池大数据得到的医疗数据进行分析,建立一个预测效果最佳的妊娠期糖尿病模型,希望通过这个模型能够尽早的发现高危孕妇并及时进行有效的干预,对提高孕妇生活质量和健康水平做出努力。本文对数据进行了预处理,包括数据异常值的检测与处理。在对异常值的检测中主要运用的是箱型图的方法,对于异常值的处理采用的是均值替代。对于缺失值的处理是把缺失率高于0.5的变量进行删除,然后在剩下的变量中,连续变量利用多重插值法进行填充,离散变量是用固定值-999填充,这样对数据进行缺失值填充比不考虑缺失值类型统一填充模型效果要好。本文对数据进行预处理之后利用IV值的方法对特征进行筛选。对原始的样本数据中的83个特征,通过特征工程筛选出40个重要特征,而这40个特征是由VAR00007、SNP34、SNP37等17个原始特征及其组合而成。这表明对妊娠期糖尿病进行预测,我们可以只采集17个特征数据即可,不必盲目采集过多的数据,这样可以节约采集数据的时间成本,有利于尽早进行预测。同时,这些重要特征也为妊娠期糖尿病的防控指明了方向。在预测模型的构建过程中,本文分别建立了Logistics回归模型、Lasso-Logistics、GBDT、Xgboost、Lightgbm、Catboost和集成多个学习器。经过对比发现,在模型效果上,糅合多个学习器的模型不管在模型的稳定性还是泛化能力上都是最好的,在训练集和测试集上的AUC值分别高达0.7889和0.7986。这表明Xgboost、Lightgbm和Catboost集成学习器对预测妊娠期糖尿病具有较好的效果。至今大多数文章都是用Logistics模型对影响妊娠期糖尿病的风险因素进行分析,鲜少有从孕妇是否会患妊娠期糖尿病这个方面去进行分析。而且大多分析都是用Logistics模型,鲜少用机器学习的模型对妊娠期糖尿病进行预测。本文在上述研究视角和模型方面进行了有益的尝试,本文的研究思路和方法对其它疾病的预测预警研究也具有一定参考价值。