基于集成学习与不平衡多标签数据集的儿科常见病预测模型构建

来源 :昆明理工大学 | 被引量 : 0次 | 上传用户：allen3lin

【摘要】

：

对于疾病的预测常常需要收集一定量的临床病历作为数据集,将病历中的症状描述作为实例特征,初步诊断作为疾病标签,并采用数据挖掘与机器学习算法来构造疾病的预测模型。然而,

【作者】

：

霍东雪

【出处】

：

昆明理工大学

【发表日期】

：

2018年01期

【关键词】

：

集成学习不平衡多标签儿科常见病互信息

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

对于疾病的预测常常需要收集一定量的临床病历作为数据集,将病历中的症状描述作为实例特征,初步诊断作为疾病标签,并采用数据挖掘与机器学习算法来构造疾病的预测模型。然而,医学中的样本数据经常会存在不平衡的现象,由此产生模型预测效果不佳的问题。鉴于医学数据集具有不平衡和多标签的特点,本文将利用集成学习算法构建一个儿科常见病的预测模型。文中对于儿科常见病的预测模型的构建,采取过采样与AdaBoost相结合并利用最大互信息生成树的算法。具体表述为:首先采用BR策略对儿科常见病的实验数据集拆分成每个标签所对应的二分类数据集;其次针对每个二分类数据集,AdaBoost在其训练与迭代过程中不断对少数类的可靠样本在指定阈值内进行一定量的复制,因此构成了所有单个疾病标签的预测模型,最后利用所有单个疾病标签预测模型的结果,并依据标签之间的最大互信息生成树进行预测。预测时需要遍历生成树,根据该结点的预测概率,父亲结点的预测概率以及其与该结点之间互信息的乘积,选取其中的最大值并更新为该结点的预测概率,设定适当阈值,把满足条件的标签添加到标签的结果集中。实验方面,两类单个疾病标签的二分类数据集与三个不平衡的二分类公共数据集运用不同的抽样技术与单个疾病标签的预测模型进行了对比,结果表明该模型的精确率、召回率和F1值均有不同程度的提升;而在文中的儿科常见病实验数据集上,将儿科常见病的预测模型与主流的多标签算法ML-KNN等进行了对比,实验证明在三类评价指标上,该模型优于其他算法的效果,因此该算法在不平衡多标签的数据集上所构造的儿科常见病的预测模型是相当有效的。

其他文献

蓝莓花青素对小鼠非酒精性脂肪肝的防治作用

目的 :检测蓝莓花青素对NAFLD小鼠模型血清中转氨酶的代谢水平,血糖、血脂的含量的改变。方法 :建立NAFLD小鼠模型,喂食蓝莓花青素,实验测定血清中转氨酶的代谢水平,血糖、血

期刊

蓝莓花青素非酒精性脂肪肝转氨酶

基于CAN总线的机舱数据组态监测报警系统

为了完成船舶机舱内各设施大量动态参数的采集与处理，提出基于CAN现场总线的组态技术的机舱监测报警系统的设计方案，完成系统的硬件配置，应用OPC技术、力控组态软件和Access数据

期刊

船舶机舱CAN总线组态监测

高压氧联合文拉法辛治疗慢性紧张性头痛伴焦虑抑郁的疗效分析

目的探讨高压氧联合文拉法辛治疗慢性紧张性头痛伴焦虑抑郁的疗效。方法将84例慢性紧张性头痛伴焦虑抑郁患者随机分为高压氧组、文拉法辛组和联合治疗组,观察头痛程度评分的

期刊

高压氧文拉法辛慢性紧张性头痛

相对渗透率曲线实验影响因素及数据处理方法研究

相对渗透率是研究油水两相渗流的基础。在岩心的驱替实验中,实验本身的许多条件会对相渗曲线实验结果造成影响,其中最常见的实验条件为油水粘度比、驱替速度、驱替倍数及岩心

学位

相对渗透率曲线岩心驱替实验影响因素机理分析实验数据处理方法

结核病专业人员及密切接触者结核潜伏感染的研究

目的利用γ-干扰素释放反应检测结核病专业人员及密切接触者结核分枝杆菌潜伏感染情况。方法研究对象共分3组:结核病专业人员组128例(其中医生60例,护士68例)、病人家属密切

期刊

结核/传播疾病传播病人至卫生人员免疫酶技术干扰素Ⅱ型

临猗县临晋镇调整种植结构大力开发江石榴生产

近年来，临猗县临晋镇充分发挥得天独厚的地理优势和历史名果的产业优势，积极调整种植结构．大力开发江石榴生产。目前，临晋全镇江石榴种植面积已达到200公顷，年总产值达6000余万元，

期刊

临猗县种植结构临晋镇

客车电子防滑器的原理和安装

期刊

电子防滑器排风阀制动缸

图式理论与初中英语真实阅读分析

在初中英语的教学过程中，阅读是英语教学的重点，更是难点。本文主要结合初中在英语阅读教学中遇到的问题，分析了初中英语阅读教学过程中使用图式理论的意义，以及如何建构图式理论

期刊

初中英语教学图式理论应用分析

红外光谱对纺织助剂中烷基酚聚氧乙烯醚的快速定性和定量

为快速排查纺织助剂中烷基酚聚氧乙烯醚（APEO）,建立了红外光谱对纺织助剂中APEO的定性和定量方法.应用红外二阶导数谱图中（1 608±4）cm-、（1 510±3） cm-1处一组特征吸收峰

期刊

红外光谱二阶导数光谱烷基酚聚氧乙烯醚特征吸收峰纺织助剂

根治幽门螺杆菌对老年反流性食管炎患者预后的影响

目的探讨老年反流性食管炎根治幽门螺杆菌对预后的影响。方法反流性食管炎患者85例,分为观察组41例:常规治疗并接受幽门螺杆菌根治治疗;对照组44例:常规治疗。结果治疗4和8 w

期刊

反流性食管炎幽门螺杆菌

基于集成学习与不平衡多标签数据集的儿科常见病预测模型构建

其他学术论文