Lasso-Logistic与Group Lasso-Logistic模型在出生缺陷研究中的应用

被引量 : 15次 | 上传用户:shena011
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目的:出生缺陷成因复杂、病因不明确、影响因素多,并且各影响因素之间关系复杂且存在相关性,而传统统计方法因为变量过多而导致估计偏差,只能达到变量选择的部分目标。本文将采用基于Lasso、Group Lasso的Logistic回归变量选择方法对出生缺陷影响因素进行分析,挖掘影响出生缺陷儿的关键因素,建立出生缺陷患病概率预测模型,为出生缺陷的预防和控制提供更好的指导。方法:本文首先介绍Lasso、Group Lasso基本原理。其中,Group Lasso是对Lasso方法的延伸,在对具有多分类的因素进行变量选择时是以整组为单位进行选择,而不是选择其中的某个分类。Group Lasso进行整组变量选择可以更好地解释和分析所研究的因素。本文以山西省人口计生委科学研究所2006-2008年对山西省6个县(市)所有出生儿及其家庭情况问卷调查的数据进行分析,该调查共收回有效问卷35058份,其中493例为出生缺陷患儿。整理出38个指标,以出生缺陷发生与否为因变量,其他为自变量。对于具有多个分类或水平的指标设置虚拟变量,共有37组50个变量。采用基于Lasso、Group Lasso的Logistic回归模型方法构建出生缺陷患儿发生概率预测模型,评价这些模型的预测性能。结果:Lasso和Group Lasso具有较好的变量选择效果。母亲的生育年龄、居住地、家庭人均收入、近亲结婚、有亲属缺陷儿、母亲孕早期贫血、有自然流产史、亲属缺陷儿、孕早期感冒、发热、服用感冒药、抗生素、经常与宠物接触、居住周边有污染源、家人经常吸烟、经常饮酒等因素对出生缺陷有重要影响;孕早期常吃肉类、蔬菜、补充叶酸制剂可有效降低出生缺陷的发生。以TPR、TNR、G-mean、AUC作为评价指标,针对不平衡分布的出生缺陷数据,并基于Logistic建立预测模型,对模型预测性能进行比较,结果显示Lasso、Group Lasso的测试集的预测效果都高于全模型logistic和逐步回归,具有较好的外推能力。结论:Lasso-Logistic、Group Lasso-Logistic回归模型可以选择出可解释的出生缺陷重要变量,并可以进行有效预测。Lasso可以选择比Group Lasso更简洁的模型,而Group Lasso-Logistic成组地选择变量可以更好地解释和分析所研究的因素,具有更强的实际应用意义。
其他文献
目前的建筑结构设计中,框架结构是基本的结构形式。框架结构的使用可以提高建筑工程的施工效率,并且能保障建筑的质量。本文将根据建筑工程中框架结构的主要类型和要点,对框
拓展训练作为体验式学习,以其新颖独特的方式,越来越受到个人、企业和社会的青睐。拓展训练对大学生人格素质的影响体现在:培养大学生的团队协作意识、培养大学生良好的沟通
目的基因与环境因素之间的互作分析(G×E)是当代研究的热点问题。针对此类互作分析,最基础的方法即是采用流行病学中的交互效应的理念来建立交互效应项,采用比较成熟的统计手
以天津滨海新区塘沽地区(533km2)馆陶组孔隙性地层为研究重点,建立地热热储概念模型和数学模型。利用TOUGH2软件拟合研究区内地热井的历史数据,模拟结果与监测数据吻合较好。
通过准时化物流的考虑方法以及在日本的发展状况,提出了两种重要的物流方式:巡回混载取货方式和中继地物流方式。在此基础上,分析了广汽丰田汽车有限公司准时制生产物流的应
分析了中小型钢铁企业生产物流管理存在的普遍问题和生产物流的特点,建立以CPFR思想指导的生产物流管理规范和例外事件处理机制。应用JIT和MRPⅡ二种现代生产管理理论,构建了
目前我国在物流绩效评价方面的研究大多数集中在第三方物流、供应链物流方面,而生产企业物流方面的研究比较少。拟对生产企业的物流绩效评价进行研究,构建一套符合生产企业物
<正>2014年高考重庆文综政治试题(以下简称"2014重庆卷")较好地体现了新课程的基本精神,稳中求变,稳中图新,特色鲜明,考点分布合理,富有时代气息。试题立意深刻,价值导向明确
<正>精心没问是课堂教学的重要组成部分,"问"得好、"问"得巧,可以让课堂活而有趣、活而有效、活而有理,训练学生思维,让学生轻松掌握知识,完成教学目标。一、导入新课,活而有
<正>2018年为前苏联著名教育家B. A.苏霍姆林斯基(ВасилийАлександровичСухомлинский)诞辰100周年。为纪念苏霍姆林斯基对教育所作的贡献,