基于机器学习方法对45岁及以上中老年人群慢性肺部疾患相关因素分析

来源 :河北医科大学 | 被引量 : 0次 | 上传用户:htagsll
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目的:本研究根据CHARLS2015年中国健康与养老追踪调查数据库,利用机器学习的方法对变量进行筛选,对所筛选出变量进一步用Logistic回归模型进行变量解释,以探求中老年人慢性肺部疾患(Chronic lung diseases)的相关因素,并进行分析解释,为该疾患患者的防治提供科学依据。方法:1.本研究将CHARLS2015年中国健康与养老追踪调查数据库的血检数据、人体测量、健康状况和功能等七个文件进行合并,根据对患者提问是否有医生告知其患有慢性肺部疾患为依据,将人群分为患病组和未患病组,经过删除缺失值在10%以上的观察单位,并对变量进行性相关性分析后,将相关系数>0.8的变量择一保留。2.本研究采用有监督的学习方法卡方分箱法对定量资料进行了分组处理,该方法可以使定量变量进行合理的分组。其原理是通过组间差异大、组内差异小的原则进行合并,并根据不同的分组数量对变量重要性(IV值)的影响,来确定最佳分箱方案。3.本研究按照4:1的比例将数据划分为训练集和测试集,并对训练集进行降采样处理,以达到样本的平衡,更适合建立模型。4.通过随机森林和XGBoost两种机器学习模型分别对训练集数据进行建模调参,根据特征重要性评分排名,结合向前变量选择法依次带入,以AUC面积作为评价指标对两个模型在训练集和测试集中的表现进行比较,并选择拟合效果较好的模型所筛选出来的变量,进一步用Logistic回归模型对较好机器学习模型所筛选出的变量进行进一步解释说明。结果:1.经过4:1的比例划分训练集与测试集后,训练集共有观察单位10195人,患病率为10.37%,测试集共有观察单位2549人,患病率为9.81%。2.经过降采样,对训练集数据进行处理后,使训练集中患者和非患者的数据达到平衡,得到训练集中的样本数量为2114人,其中患者:非患者为1:1。3.经过随机森林和XGBoost两种机器学习模型的建模并进行调参,以AUC面积作为评价标准发现,随着向前带入变量的数量逐渐增加,在评分指标到达平台期时,随机森林模型的评价指标要优于XGBoost模型。在两个模型均带入变量为90个时,随机森林模型在测试集中的AUC面积为0.745,灵敏度为0.752,特异度为0.738,优于XGBoost模型在测试集的评价指标,AUC面积为0.704,灵敏度为0.732,特异度为0.676。因此选择随机森林模型所筛选出来的变量进行Logistic分析。4.Logistic回归分析结果:血检数据中血小板水平升高、低密度脂蛋白胆固醇与平均红血球容积的水平在中等水平时为疾患的保护性因素,OR值分别为0.705、0.643、0.543,C-反应蛋白水平升高、白细胞水平升高为疾患的危险性因素,OR值分别为1.86、1.632;在体测数据中呼气峰流速越高、身体质量指数水平越高为疾患的保护性因素,OR值分别为0.332、0.604,连续起坐时间越长为疾患的危险性因素,OR值为1.371;在健康状况与功能中患有哮喘、关节炎和风湿病、胃部疾病或消化系统疾病、心脏病、慢跑一公里有困难、为身体感到苦恼、对自身健康不满意程度、感到恐惧为疾患的危险性因素,OR值分别为14.067、2.158、1.905、1.532、1.570、1.348、3.345、2.222;家中现金越多为疾患的保护性因素,OR值为0.646,男性、上次去医院的目的是看病、参加新农保时疾患的危险性因素,OR值分别为1.641、1.482、1.288。结论:1.在分析大样本数据,变量数量过多的大型调查数据时,如果使用传统的Logistic回归模型进行分析的话,往往会导致模型系数不稳定,且耗时长,效率低。因此,先使用随机森林模型选变量,提高模型的效率,再利用Logistic回归模型对筛选后的变量进一步分析,可提高模型的解释性。2.本研究发现慢性肺部疾患与多方面因素存在不同程度的联系。其中合并其他疾病,如哮喘,关节炎或类风湿性疾病,胃部疾病或消化系统疾病,以及心理状态影响较大。因此,在疾病的治疗过程中,应全面的对患者多方面情况予以关注,多措并举,从而提高治疗效果,以及患者的生活质量。
其他文献
目的:通过建立PM2.5染毒动物模型和细胞模型,探讨PM2.5暴露导致的肺纤维化及其可能机制。方法:1.动物模型的建立健康C57BL/6小鼠48只,随机分为洁净空气组(FA)、大气组(UA)、PM2.5浓缩组(CA)。FA组空气经高效微粒空气过滤器滤掉颗粒物,UA组空气是室外空气,CA组空气经过大气在线富集系统对空气中的PM2.5进行浓缩。每组小鼠每天暴露6h,连续暴露8或16周。2.细胞模型的建
学位
目的:胃癌(Gastric cancer,GC)是全球第五大流行癌症,每年约77万人死于胃癌,我国胃癌死亡人数高达37万,占胃癌总死亡人数的1/2。胃癌是起源于胃黏膜上皮的恶性肿瘤,其中最常见的组织学类型是腺癌,而目前常规治疗手段,如手术、放、化疗及免疫治疗等并未降低患者死亡率。因此亟待探索有效治疗GC的新方法。研究发现,肿瘤的发生发展与胚胎的发育过程中有诸多类似的特点,例如生物学行为、基因表达谱
学位
目的:双酚AF(BPAF)是内分泌干扰物BPA的主要替代品。近年来研究发现BPAF暴露诱导斑马鱼神经元细胞凋亡和下丘脑-垂体-性腺腺轴受损,并会破坏神经行为功能,表明BPAF对神经系统具有潜在毒性,然而关于BPAF对脑和神经行为影响的作用机制还需进一步研究。肠道微生物组群的紊乱可能导致神经行为障碍,研究表明微生物-肠脑轴作为一种双向信息调节途径影响大脑功能,我们拟观察露于BPAF小鼠的抑郁行为及肠
学位
目的:了解河北省老年人的基本特征和卫生服务利用现状,研究河北省老年人卫生服务利用的影响因素及其影响路径,为提高河北省老年人卫生服务利用水平,改善群体健康状况提供科学依据。方法:选择河北省人口与家庭健康状况调查中60岁及以上老年人作为研究对象。采用 χ~2检验分析比较老年人的两周患病率和一年住院率。通过探索性因子分析提取老年人卫生服务利用的潜变量,并构建结构方程模型,分析影响老年人卫生服务利用的因素
学位
目的:探讨急性百草枯(Paraquat,PQ)暴露对海马小胶质细胞表型分化的影响及其机制。方法:我们建立了急性PQ中毒的大鼠模型,将SD雄性大鼠随机分为4组:对照组、5、25和50 mg/kg PQ暴露组,每组又分为三个亚组分别暴露1、3和7天后处死动物取脑海马组织待测;在体外细胞培养实验中,分别用0、0.01、0.025、0.05和0.1μmol/L PQ处理BV-2小胶质细胞24小时。对于脑海
学位
目的:乳腺癌是女性最常见的恶性肿瘤之一。2020年乳腺癌新发病例占所有女性恶性肿瘤的24.5%,位居首位。乳腺癌发病率的升高导致了很大一部分的全球疾病负担、死亡。随着乳腺癌新发病例越来越多,乳腺癌的治疗药物近年来不断增多,2018年帕妥珠单抗成为新纳入医保的乳腺癌治疗药物之一。很多meta分析表明含有帕妥珠单抗的联合用药组合对于乳腺癌治疗很有效果,但是帕妥珠单抗的联合用药组合的治疗方案有很多种,哪
学位
目的:全氟辛烷磺酸(Perfluorooctane sulfonates,PFOS)为全氟化合物的代表性物质之一,其促进动脉粥样硬化形成的作用机制尚不清楚。本研究拟利用体内、体外实验探讨巨噬细胞极化在PFOS促动脉粥样硬化中的作用及相关机制。方法:1.ApoE-/-小鼠适应性喂养一周后随机分为四组,每组10只,分别为对照组,PFOS暴露低(0.1 mg/kg)、中(0.3 mg/kg)、高(1.0
学位
目的:分析石家庄市手足口病的人群分布、时间分布。探索气象因素和空气污染物与手足口病间的关系,并定量分析石家庄市气象因素和空气污染物对手足口病的影响及其滞后效应。方法:1.从全国法定传染病网络直报信息系统获得石家庄市手足口病个案病例数据。从中国气象数据共享服务网获取石家庄市气象因素数据,并从石家庄市空气质量监测站获取石家庄市空气污染物数据。2.对手足口病的时间分布特征、人群分布特征进行描述性统计分析
学位
为了探究细胞在传代衰老过程中的生长性能、碳流向和抗氧化特性,以酿酒酵母为研究对象,比较了第1、5、15、20代酵母的生长曲线,检测发酵液的电导率,测定发酵液中蛋白质、核酸、葡萄糖、乙醇、甘油的含量,胞内海藻糖、胞内活性氧(ROS)含量和过氧化氢酶(CAT)、超氧化物歧化酶(SOD)的活性。结果表明:酵母随着传接代数的增加,进入平稳期的时间延迟,且分裂能力下降;电导率、蛋白质和核酸的含量呈显著升高趋
期刊
目的:新型冠状病毒肺炎(Novel coronavirus disease 2019,COVID-19)自2019年起在全球范围内广泛传播,重症患者死亡率较高,部分患者发展为重症后,可迅速进展为多器官功能障碍综合征甚至死亡。重症COVID-19患者死亡的主要原因在于免疫系统过度激活导致的细胞因子风暴。新冠病毒在体内可刺激非特异性与特异性免疫,导致患者炎性因子如白细胞介素-6(Interleukin
学位