基于集成学习的糖尿病预测模型研究

来源 :浙江工商大学 | 被引量 : 0次 | 上传用户:gby603
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着生活水平的不断提高,人们越来越注重健康问题。糖尿病已经成为继肿瘤、心血管疾病之后的第三大严重威胁人类健康的慢性非传染性疾病。而我国糖尿病的防治呈现“三高”和“三低”的特点,“三高”是指发病率高,并发症发病率高以及治疗费用高,“三低”是指知晓率低,治疗率低以及达标率低。因此,建立有效的糖尿病预测模型,对于控制疾病风险和保障人们健康,具有十分重要的意义。本文旨在运用集成学习方法,基于肠道菌群数据建立糖尿病预测模型,一方面为实现无创预测糖尿病提供可能,减少人们看病所需的时间和金钱成本;另一方面为在广泛人群中开展糖尿病筛查工作提供新思路,降低过晚知晓带来的损失。本文在充分总结国内外相关研究成果的基础上,首先阐述集成学习的思想和三种常用的集成方法:Bagging、Boosting和Stacking。然后使用文本挖掘有关技术和正则表达式从电子病历中抽取出样本的基本信息,根据目前诊断划分样本为糖尿病或非糖尿病患者;同时综合使用过滤法和集成法对肠道菌群数据进行降维。此后,分别使用随机森林、梯度提升树和XGBoost建立糖尿病患者与非糖尿病患者的预测模型。最后,使用Stacking方法集成这三种模型来提升模型的效果,并通过糖尿病检出率、假阳性率和AUC值对比分析以上四种模型的预测效果。本文的研究结果表明,糖尿病与非糖尿病患者的肠道菌群之间存在差异;基于随机森林、梯度提升树和XGBoost建立的模型效果不同,其中随机森林和XGBoost效果较好,糖尿病检出率达到85%;使用Stacking方法集成这三种模型能够进一步提高糖尿病的检出率,降低假阳性率。因此,本文的研究成果可以帮助识别糖尿病患者与非糖尿病患者,让未知自己患有糖尿病的人尽早得到治疗,降低过晚知晓带来的风险。
其他文献
城镇化是我国实现现代化的必由之路。推进城镇化发展一定要立足我国国情,既要借鉴各国城镇化的成功经验,又要摒弃它们失败的教训,既要积极推进、尽力而为,又要稳妥审慎、量力
运用APDL建立机床主轴的参数化有限元模型,应用ANSYS优化设计功能,以主轴的重量为优化目标,对主轴的支承跨距、外径、悬伸长度和传动件安装位置进行了优化计算,并对优化结果
<正> 意大利宣布将举办本国历史上首届懒汉大会,凡饱食终日、无所事事、好逸恶劳者或宁愿饿肚皮也不愿挣钱糊口的"懒虫"们都可报名出席会议。组织者称,举办此次大会的目的是
本文首先指出了对知识型员工的激励研究对企业发展的重要意义和企业目前激励知识型员工的现状,介绍了知识型员工的基本概念和特征以及管理激励理论和制度激励理论,其次,通过大量
选用8个平菇品种及其配制的24个自交菌株,研究了21个数量性状的遗传变异特性。结果表明,平菇自交后代与其亲本性状的均值有明显差异。因性状和品种不同,由遗传变异引起的性状分离多少
中国新闻学研究的绿色转向主要体现在:新闻价值上的生态中心主义定位,新闻写作上的风险转向与新闻教育研究上的科学转向。这些变革同时消退着传统新闻学研究之人类中心主义、经
人无信不立,业无信不兴。创新推进社会信用建设,对于提升国家治理有效性,促进国家治理现代化具有重要意义。2017年12月28日,由人民日报社指导,人民论坛杂志社、国家治理周刊
艺术理论与艺术实践关系密切。艺术理论作为艺术学科客观规律的系统总结,是艺术设计实践教学中不可忽视的重要内容。艺术理论对艺术创作具有巨大的推动力,影响着设计作品的艺
甘肃高台骆驼城十六国墓葬中出土的四件墓券,文字完整,内容丰富,对研究十六国时期西北地区的丧葬习俗和民间信仰具有重要的价值。本文对四件买地券进行了校释和标点,对其中错误进
根据中国信通院的研究报告《全球数字经济新图景2019》,2018年,47个国家数字经济总规模超过30.2万亿美元,占GDP比重高达40.3%。其中约半数国家数字经济规模超过1000亿美元,美