【摘 要】
:
决策树是统计机器学习的重要算法之一,其产生的每条路径从根节点到叶结点对应着一条预测规则,因此决策树的本质是从训练数据集中归纳出一组预测规则。集成学习中的Bagging与Boosting思想分别与决策树结合在一起,即多个弱监督模型(决策树)组合成一个更好更全面的强监督模型(树集成模型)。如随机森林(Random Forest,RF)、XGBoost等均为树集成模型。随着信息技术的高速发展,各行各业如
论文部分内容阅读
决策树是统计机器学习的重要算法之一,其产生的每条路径从根节点到叶结点对应着一条预测规则,因此决策树的本质是从训练数据集中归纳出一组预测规则。集成学习中的Bagging与Boosting思想分别与决策树结合在一起,即多个弱监督模型(决策树)组合成一个更好更全面的强监督模型(树集成模型)。如随机森林(Random Forest,RF)、XGBoost等均为树集成模型。随着信息技术的高速发展,各行各业如医疗健康业、商业金融业、政府部门、企业和科研机构等都积累了海量的数据,越来越多的研究者利用机器学习如树集成模型发现数据中以前未知的且潜在有用的规律或知识,并形成对疾病、经济等方面的预测或分类。然而,单纯的预测或分类已无法满足当前研究者的需要,在集成学习领域中更加强调算法对生成结果背后的理解与可解释性。随着集成学习方法的发展,集成模型的可解释性问题引起了越来越多研究者的关注,传统的可解释性模型如线性回归、Logistic回归等参数模型往往适合于线性问题。而随着数据量的增长,多数数据呈非线性分布,故传统的统计方法很难满足研究者的需要。本文基于能够分析线性、非线性以及具有交互作用的复杂高维数据的树集成模型,给出了可解释性树集成框架的规则提取方法,其基本思想是先建立树集成模型如RF、正则化随机森林、GBM及XGBoost等模型,然后利用规则提取算法从树集成模型生成的规则中提取规则、度量规则、修剪规则、选择规则并利用改进序贯覆盖法筛选简化的预测规则集,实现了预测准确性和可解释性之间的权衡。本研究主要采用基于RF的规则提取方法对顽固性高血压患者人群合并主要不良心血管事件进行疾病预测,能获取较为精细有效地中医四诊信息的可解释性预测规则,特别说明了此方法的关键算法及其参数设定,并定义了准确性和新的可解释性度量,发现此方法能有效提高中医四诊信息的可解释性,并在疾病预测的准确性和解释性之间达到很好地平衡。模型的可解释性一直具有重要的理论和实践价值,高的可解释性模型更值得信赖且容易被接受。
其他文献
世界人口老龄化现象日渐凸显,我国老龄化进程的加快引发了社会大众对如何提升老年人生活质量和健康保障的思考,为老设计、适老设计逐渐成为设计学界研究和探讨的重要课题。卫浴行为是老年人日常行为活动中必不可少的行为习惯,老年人骨质、关节等生理机能的衰退,视觉、听觉和触觉等五官感受的弱化,都会给独自的卫浴行为带来风险。本文从符号学路径下的产品建构(SAPAD)的角度出发,以老年人卫浴行为为着力点,通过文献研究
由跨越了生态系统边界的物质、能量和生物体等所组成的一系列生态系统称为集合生态系统。集合生态系统的有关研究,有助于人们评估资源交换的潜在结果,可以促进经验评估,并促进对空间生态系统生态学的理解。本文建立了一个模型来研究集合生态系统框架中两个本地生态系统之间双向资源交换的动力学性质,通过应用微分方程比较原理、连续理论等工具讨论了模型的一致持久性、正周期解的存在性、全局吸引性等动力学性质。全文结构如下:
非线性抛物方程可用来描述大自然中的许多扩散现象,如热传导、燃烧现象、种群迁移等。同时它与很多领域都有着密切的联系,吸引着无数研究学者的研究兴趣。对非线性抛物方程解的奇性的研究不仅能丰富非线性偏微分方程相关领域的结果,更能为某些物理现象的合理解释提供数学理论依据。解在有限时刻熄灭可以刻画自然界中种群进化中物种在某个时刻灭绝;也可以用来刻画物质的燃烧过程中燃烧在某个时刻停止等。本文主要研究一类具有非线
多属性决策是利用已有的决策信息,通过一定的方式对一组备选方案进行排序或择优。本文在考虑犹豫度的基础上对犹豫模糊语言集和区间值犹豫模糊集的多属性决策问题进行了研究,主要内容包括:(1)基于犹豫模糊语言数的元素个数和元素之间的偏差定义了犹豫模糊语言数的犹豫度,进而提出犹豫模糊语言数的得分函数对犹豫模糊语言数进行比较,并在犹豫度的基础上定义了犹豫模糊语言集之间的闵可夫斯基距离测度和闵可夫斯基加权距离测度
本文研究了几类Vandermonde矩阵包括h-Bernstein-Vandermonde-类完全非正矩阵和广义h-Bernstein-Vandermonde逆完全非正矩阵的奇异值与特征值的高精度计算。文章首先给出h-Bernstein-Vandermonde-类完全非正矩阵和h-Bernstein-Vandermonde逆完全非正矩阵的参数化;然后提出高精度算法对这两类特殊矩阵进行数值计算;最后
多维线性系统通常由几个独立变量的微分或差分方程组来定义,基于多项式矩阵的系统描述方法使得系统间的等价与多项式矩阵的等价联系起来。探究多元多项式矩阵间不同的等价关系可以促进多维系统的动力学行为研究。基于此,本文的主要研究内容如下:首先,本文对如何从给定的多维系统得到其所对应的多项式系统矩阵进行讨论,接着对多元多项式矩阵以及系统矩阵之间常用的几种等价类型以及相关特征做出探究。将一元情形下两类严格系统等
长沙市现有的大型综合医院,多兴建或者重建于20世纪50、60年代,受制于当时社会经济的发展,医院兴建之初,缺乏系统的规划设计,医院户外景观设计在诸多不足。本文通过对国内外有关医院康养景观现有研究成果进行归纳和总结,对医院康养景观进行概述。文章第一部分对医院康养景观的研究背景、研究目的与意义进行阐述,并对医院康养景观的国内外现状进行了梳理分析,对医院康养景观相关概念进行界定,确定了文章的基本框架与结
泛函微分方程是微分方程中非常重要的一类方程,广泛地应用于生物学、经济学、遗传基因学以及医学等许多领域。中立型泛函微分方程周期解的相关问题是泛函微分方程研究领域中的热门问题之一。本文主要运用不动点定理研究了三类中立型泛函微分方程(组)周期解的存在性。对于第一类,运用Schauder不动点定理和压缩映射定理获得了其非平凡周期解存在的若干充分条件,建立了唯一周期解的存在性结果;对于第二类,运用锥上不动点
奇异摄动两点边值问题出现在自然科学的各个领域,研究其求解方法是必要的。本文主要研究基于分级网格的有限体积元方法求解奇异摄动两点边值问题,并与Shishkin网格计算方法进行比较。本文从简单到复杂,主要讨论了三种奇异摄动两点边值问题。首先针对线性奇异摄动两点边值问题,研究其基于分级网格的有限体积元法,并得到对应的计算格式,进而讨论了有限体积元法的误差估计和收敛性,然后利用数值例子验证有限体积元方法的
数学是研究数量关系与空间形式的一门科学,而数形结合便是数量关系与空间形式两者间的完美结合。数形结合既是重要的数学思想之一,还是一种解决数学问题行之有效的方法,它利用数形间的关系,将抽象的代数语言与直观的几何语言相联系,实现数形间的互化,作为常用数学思想之一,既可以激发学生学习兴趣,帮助学生认识问题本质,还可以促进学生思维的开拓,提高创新能力,在初中数学教学中具有极其重要的意义与价值。课标对数学思想