基于集成学习与不平衡多标签数据集的儿科常见病预测模型构建

来源 :昆明理工大学 | 被引量 : 0次 | 上传用户:allen3lin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
对于疾病的预测常常需要收集一定量的临床病历作为数据集,将病历中的症状描述作为实例特征,初步诊断作为疾病标签,并采用数据挖掘与机器学习算法来构造疾病的预测模型。然而,医学中的样本数据经常会存在不平衡的现象,由此产生模型预测效果不佳的问题。鉴于医学数据集具有不平衡和多标签的特点,本文将利用集成学习算法构建一个儿科常见病的预测模型。文中对于儿科常见病的预测模型的构建,采取过采样与AdaBoost相结合并利用最大互信息生成树的算法。具体表述为:首先采用BR策略对儿科常见病的实验数据集拆分成每个标签所对应的二分类数据集;其次针对每个二分类数据集,AdaBoost在其训练与迭代过程中不断对少数类的可靠样本在指定阈值内进行一定量的复制,因此构成了所有单个疾病标签的预测模型,最后利用所有单个疾病标签预测模型的结果,并依据标签之间的最大互信息生成树进行预测。预测时需要遍历生成树,根据该结点的预测概率,父亲结点的预测概率以及其与该结点之间互信息的乘积,选取其中的最大值并更新为该结点的预测概率,设定适当阈值,把满足条件的标签添加到标签的结果集中。实验方面,两类单个疾病标签的二分类数据集与三个不平衡的二分类公共数据集运用不同的抽样技术与单个疾病标签的预测模型进行了对比,结果表明该模型的精确率、召回率和F1值均有不同程度的提升;而在文中的儿科常见病实验数据集上,将儿科常见病的预测模型与主流的多标签算法ML-KNN等进行了对比,实验证明在三类评价指标上,该模型优于其他算法的效果,因此该算法在不平衡多标签的数据集上所构造的儿科常见病的预测模型是相当有效的。
其他文献
目的 :检测蓝莓花青素对NAFLD小鼠模型血清中转氨酶的代谢水平,血糖、血脂的含量的改变。方法 :建立NAFLD小鼠模型,喂食蓝莓花青素,实验测定血清中转氨酶的代谢水平,血糖、血
为了完成船舶机舱内各设施大量动态参数的采集与处理,提出基于CAN现场总线的组态技术的机舱监测报警系统的设计方案,完成系统的硬件配置,应用OPC技术、力控组态软件和Access数据
目的探讨高压氧联合文拉法辛治疗慢性紧张性头痛伴焦虑抑郁的疗效。方法将84例慢性紧张性头痛伴焦虑抑郁患者随机分为高压氧组、文拉法辛组和联合治疗组,观察头痛程度评分的
相对渗透率是研究油水两相渗流的基础。在岩心的驱替实验中,实验本身的许多条件会对相渗曲线实验结果造成影响,其中最常见的实验条件为油水粘度比、驱替速度、驱替倍数及岩心
目的利用γ-干扰素释放反应检测结核病专业人员及密切接触者结核分枝杆菌潜伏感染情况。方法研究对象共分3组:结核病专业人员组128例(其中医生60例,护士68例)、病人家属密切
近年来,临猗县临晋镇充分发挥得天独厚的地理优势和历史名果的产业优势,积极调整种植结构.大力开发江石榴生产。目前,临晋全镇江石榴种植面积已达到200公顷,年总产值达6000余万元,
在初中英语的教学过程中,阅读是英语教学的重点,更是难点。本文主要结合初中在英语阅读教学中遇到的问题,分析了初中英语阅读教学过程中使用图式理论的意义,以及如何建构图式理论
为快速排查纺织助剂中烷基酚聚氧乙烯醚(APEO),建立了红外光谱对纺织助剂中APEO的定性和定量方法.应用红外二阶导数谱图中(1 608±4)cm-、(1 510±3) cm-1处一组特征吸收峰
目的探讨老年反流性食管炎根治幽门螺杆菌对预后的影响。方法反流性食管炎患者85例,分为观察组41例:常规治疗并接受幽门螺杆菌根治治疗;对照组44例:常规治疗。结果治疗4和8 w