基于电子病历分析的糖尿病患病风险数据挖掘方法研究

来源 :青岛大学 | 被引量 : 0次 | 上传用户:hainian3166
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
空腹血糖(Fasting Blood Glucose,FBG)是衡量人体健康的一个重要指标。对空腹血糖的分析预测对发现和治疗疾病有重要意义,尤其是对糖尿病等相关疾病。体检数据是一种信息丰富的电子医疗数据,其中包含着大量体检者长期的健康指标。从大数据分析的角度,本文主要利用大数据方法研究了众多体检项与空腹血糖变化之间的关系,包含两方面的工作:首先,基于连续四年的历史体检数据和统的数据挖掘技术和经典算法,提出了对未来空腹血糖变化趋势预测的模型。该模型包括结合了随即森林特征重要性和顺序前向选择(Sequential Forward Selection,SFS)方法的特征选择算法,和对空腹血糖变化趋势概率化表示的算法。利用体检数据进行实验,表明进行特征选择后,得到与空腹血糖相关性较大体检项,并且模型的性能得到提升。对测试集上空腹血糖的趋势概率化表示,并选取空腹血糖变化高概率人群,从敏感度、特异度、正阳性预测值三方面进行分析,发现对于空腹血糖上升人群具有较好效果。其次,针对空腹血糖值表现正常群体,研究体检指标与空腹血糖高风险人群的关系建立空腹血糖上升风险预警模型。该模型考虑任两个体检项相互作用对于空腹血糖变化的影响,在数据集中添加了交叉项,通过重要体检项得分和特征选择,发现哪些体检项的相互作用对空腹血糖。从构造的交叉特征集合中,使用特征选择方式选取重要交叉项特征,用于构建空腹血糖上升风险预警模型。利用体检数据进行实验,结果表明随机森林模型在加入经过特征选择选取的交叉项,模型的性能得到提升,并对重要特征进行分析。由于数据集中存在严重的正负样本不平衡分类问题,本模型设计了基于欠抽样和模型组合的方法处理数据不平衡分类问题,取得了良好的效果。
其他文献
本论文主要完成了Zigbee无线传感器网络的系统设计,其中包含网络节点的硬件设计和协议的软件设计及开发,实现了可以测量环境温湿度及压力的无线传感器网络。硬件电路设计采用TI
本研究的目的是对3D打印过程进行可视化仿真,并对打印路径和STL文件缺陷的修复方法进行研究,从而为3D打印工艺的优化提供可靠依据。本仿真软件以BFB文件为基础进行研究,主要
随着Internet的迅速发展和普及,人们对网络安全问题也变得越来越关注。其中,在网络安全诸多威胁中,网络蠕虫由于危害严重、攻击范围大、爆发速度快,己经成为目前互联网所面临的最
计算机配色技术的出现解决了传统人工配色过程中费时、费力、可重现性差等问题,然而国内计算机配色起步较晚,在计算速度和精度上还有待提高。由于因子分析方法使用了因子旋转
现实中所得到的照片不免会包含各类的噪声,给人们做出准确的判断造成了一定程度的困难。为了确保后续的图像处理结果更加稳健可靠,需要对图像进行去噪处理。现在有很多模型和
随着网络技术的发展,分布式系统得到了广泛的应用,然而由于分布式系统运行的“不确定”性、交互调试方法对分布式程序造成的“探针效应”等诸多问题,致使传统的串行调试方法无法
随着对信息安全性要求的提高,身份认证系统已渗透到当前信息社会的每一个角落。文本口令机制是目前使用最为广泛的一种身份认证方式,然而,文本口令存在很多固有缺陷使之很难同时
肩窥攻击是一种常见的通过直接观察或记录认证过程而获取口令的方式。这种攻击方式对于获取高度可视化的图形口令更为有效。然而,现有的大多数图形口令机制都不能有效抵御肩窥
喷泉码是网络通信领域中的一项重要突破,最初是为删除信道(Binary ErasureChannel,BEC)设计的,其最大的特点就是码率无关性,即编码器可以生成的编码符号的个数是无限且灵活的,译码
在图像和视频的内容分析和对象识别领域,以SIFT特征为代表的局部特征提取方法在最近几年得到了成熟和广泛的应用。从图像或视频关键帧中提取局部特征组成特征集合,通过匹配局部