基于机器学习的妊娠期糖尿病预测

来源 :西南财经大学 | 被引量 : 0次 | 上传用户:zbz963
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着生活水平的上升,在健康方面,大众防患于未然的意识也逐渐提高。尤其是在怀孕期间,妊娠期糖尿病的风险被提前预测也成为了关系亿万居民家庭的一大需求。智能健康产业的兴起就是为了满足这一新的需求,让孕妇及准孕妇们能尽快了解自己可能遭遇的病情,以便及早防控。同时也因为互联网的迅速发展,很多健康数据已经储存在计算机中,比如说诊断记录、电子档案和病历信息等。随着科学和人工智能的发展,机器学习越发成熟,其分类能力越来越强大和智能化,为预测妊娠期糖尿病提供了一种新的方法。本文基于机器学习及分类器理论,利用从天池大数据得到的医疗数据进行分析,建立一个预测效果最佳的妊娠期糖尿病模型,希望通过这个模型能够尽早的发现高危孕妇并及时进行有效的干预,对提高孕妇生活质量和健康水平做出努力。本文对数据进行了预处理,包括数据异常值的检测与处理。在对异常值的检测中主要运用的是箱型图的方法,对于异常值的处理采用的是均值替代。对于缺失值的处理是把缺失率高于0.5的变量进行删除,然后在剩下的变量中,连续变量利用多重插值法进行填充,离散变量是用固定值-999填充,这样对数据进行缺失值填充比不考虑缺失值类型统一填充模型效果要好。本文对数据进行预处理之后利用IV值的方法对特征进行筛选。对原始的样本数据中的83个特征,通过特征工程筛选出40个重要特征,而这40个特征是由VAR00007、SNP34、SNP37等17个原始特征及其组合而成。这表明对妊娠期糖尿病进行预测,我们可以只采集17个特征数据即可,不必盲目采集过多的数据,这样可以节约采集数据的时间成本,有利于尽早进行预测。同时,这些重要特征也为妊娠期糖尿病的防控指明了方向。在预测模型的构建过程中,本文分别建立了Logistics回归模型、Lasso-Logistics、GBDT、Xgboost、Lightgbm、Catboost和集成多个学习器。经过对比发现,在模型效果上,糅合多个学习器的模型不管在模型的稳定性还是泛化能力上都是最好的,在训练集和测试集上的AUC值分别高达0.7889和0.7986。这表明Xgboost、Lightgbm和Catboost集成学习器对预测妊娠期糖尿病具有较好的效果。至今大多数文章都是用Logistics模型对影响妊娠期糖尿病的风险因素进行分析,鲜少有从孕妇是否会患妊娠期糖尿病这个方面去进行分析。而且大多分析都是用Logistics模型,鲜少用机器学习的模型对妊娠期糖尿病进行预测。本文在上述研究视角和模型方面进行了有益的尝试,本文的研究思路和方法对其它疾病的预测预警研究也具有一定参考价值。
其他文献
自然通风是一种既节约能源又不污染环境的建筑通风方式。随着空调技术和机械通风技术的发展,自然通风的利用价值会经常被人们忽视。但空调和能耗机械通风能耗是建筑能耗的重要组成部分,它们都会或多或少的消耗不可再生能源。同时,近年来,建筑室内由于长期使用空调对人员的健康也造成了不小的伤害。所以,随着全球能源危机的爆发以及人们对建筑空间内环境品质要求的提升,自然通风这一建筑通风方式又重新被人们所重视。自然通风在
我国从专利立法至今仅三十余年的历史,发展到今天已经成为全世界的知识产权大国,三种专利的申请量已跃居世界首位。随着我国经济技术的迅猛发展,知识产权法制的逐渐完善,各国
随着经济社会发展水平的不断提高,国家也越来越重视教育的发展,作为高等教育的重要组成部分,民办高等教育近些年来发展快速,取得了举世瞩目的成就,正逐渐成为我国高等教育体
信息技术的发展和应用范围的不断扩大,使得信息系统建设成为一项大型而复杂的系统工程,这项工程的建设质量成为人们所关注的重点问题。就信息系统本身而言,其质量的优劣表面上是体现在信息系统这一产品与业务功能、性能等方面的需求相一致的程度,但本质上还与信息系统开发团队的水平与能力、信息系统开发过程的管理密切相关。因此信息系统质量评价应该包括信息系统产品实际的质量和信息系统开发团队的工作质量两个方面。缺陷是指
从广泛联系农村地区,到减缓“民工潮”社会压力,再到带动“三农”领域发展,我国小城镇所发挥的价值也跟随城镇化的深入而逐渐提升,成为了推动新型城镇化的重要载体。然而,我国小城镇在类型、规模、所处城镇化阶段等方面千差万别。从小城镇发展动力上来看,传统的小城镇通过连接农村来提供商贸服务功能,工业型小城镇通过利用资源和区位优势提供产业带动功能,城郊型小城镇通过承接大城市外溢提供疏散功能,旅游型小城镇通过开发