面向脑卒中非平衡数据分类的旋转森林算法研究

来源 :太原理工大学 | 被引量 : 0次 | 上传用户:gundamet
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
脑卒中是一种严重影响人们身心健康的急性脑血管疾病,只有通过早期筛查和积极干预,做到早发现早治疗,才能将其危害降至最低。流行病学调查、经颅多普勒超声(Transcranial Doppler,TCD)和脑电图(Electroencephalogram,EEG)都是临床上筛查脑卒中的有效方式,但目前,对于筛查数据的分析和判别主要依靠人工进行,这样容易受到医护人员的临床经验以及主观因素的影响。因此,采用人工智能技术辅助脑卒中诊断治疗已成为当前的研究热点。由于脑卒中的筛查数据往往存在非平衡特性,会导致传统的机器学习失效,因此针对脑卒中非平衡数据,构建性能优良的分类模型具有重要的研究意义和社会价值。旋转森林是一种经典的集成学习算法,通过引入主成分分析(Principal Component Analysis,PCA)进行特征映射,在保证基分类器准确性的同时提升其多样性,从而提升集成学习的性能。本文面向三种不同模态的脑卒中非平衡数据,分别从算法层面和数据预处理层面出发,研究用于脑卒中非平衡数据分类的旋转森林算法模型。详细的研究工作如下:针对三个不同的脑卒中筛查数据集开展特征工程,为后续的模型分类做好数据准备。针对流行病学数据,结合脑卒中危险因素的相关知识,对其进行数据清洗;针对TCD数据,根据已有血流特征扩充构建新的组合特征,深入挖掘TCD数据信息;针对EEG数据,由于EEG信号极其微弱,具有非线性和不平稳性等特点,因此提取常见的脑电特征用于分类模型的输入。从算法层面构建代价敏感旋转森林模型。现实生活中,脑卒中的分类诊断问题具有实例相关代价敏感特性,因为误分类的代价不仅在类与类之间存在差异,而且在同一类的不同实例之间也存在差异。首先,本文根据脑卒中疾病特点设计了脑卒中代价矩阵,为分类模型引入代价因子。然后采用实例相关代价敏感决策树作为基分类器,构建传统的实例相关代价敏感旋转森林模型(Example-dependent Cost-sensitive Rotation Forest based on PCA,ECSROF_PCA),由实验结果可知,ECSROF_PCA相比于已有算法能更大程度的节约成本,验证了旋转森林算法的有效性。从数据预处理层面构建旋转平衡森林模型。相比于代价敏感模型,数据重采样方法不考虑误分类的代价差异,因此更简单易懂,通用性更强。首先根据对比实验选择随机下采样作为数据重采样方法,用于后续和旋转森林结合构建分类模型。然后,考虑到传统的平衡旋转森林(Banlance Rotation Forest,Ban_Ro F)在进行特征映射前就通过下采样平衡了数据,这样不利于模型充分利用数据信息找到更合适的映射空间,本文提出了一种先映射后采样的旋转平衡森林模型(Rotation Banlance Forest,Ro BF),由实验结果可知,Ro BF相比于Ban_Ro F分类性能有了进一步提升,并且测试时间更短,实时性更好。为了进一步提升旋转森林模型性能,本文首先引入有监督的线性判别分析(Linear Discriminant Analysis,LDA)代替原始无监督的PCA构建旋转森林模型。在代价敏感模型和旋转平衡森林模型上都验证了LDA映射方法的有效性,实验结果显示,基于PCA的旋转森林的召回率和特异性这两个评价指标差距都较大,而基于LDA的旋转森林可以更好的平衡这两个指标。然后,本文从PCA和LDA重构的特征空间以及原始特征空间这三个维度出发,提出组合旋转森林框架,旨在进一步增加基分类器的多样性,在代价敏感模型和旋转平衡森林模型上都验证了该思路的有效性。实验结果表明,本文提出的组合旋转森林模型能在控制模型复杂度的同时,进一步提升模型的分类性能。
其他文献
宝相花纹样是我国最具代表性的植物纹样之一,它是由多个不同的吉祥花草纹样组合而成的理想之花,是中国植物纹样中的一朵奇葩。随着佛教传入中国,宝相花纹样融合了本土与外来文化,经过多个朝代的演变,在唐朝达到鼎盛时期,凝聚着历朝历代人民智慧的结晶,极具有研究价值。本文以唐代宝相花纹样为研究对象。通过文献研究的方法,对唐代宝相花纹样的结构、组成元素、色彩进行研究,将唐代宝相花纹样概括为以正视图为主的“大唐之花
近年来,数字化技术在传统文化中的运用日渐风靡。在这种趋势下,优秀的数字作品层出不穷并风格多变。它们不再局限于模式化的设计,更多的是结合传统文化的内核,将艺术特征融入到个人设计中,形成独特的产品。因此,传统文化的数字化展示是一个创作技巧,通过对传统文化再现和艺术加工,创造出与时代相符合的作品。同时,这也是传承传统文化的技术手段,能够让公众了解传统文化的魅力。大同九龙壁作为国家重点文物单位,有着极高的
图书馆是人类知识传播、信息资源集中流通的重要场所。互联网技术的迅猛发展和智慧物联网的广泛应用,使得图书馆的技术支撑和运作方式不断革新,面对大量的图书资源和庞大的读者群体,图书馆的管理模式和服务方式面临着诸多挑战。2006年起,国内越来越多的图书馆开始引进射频识别技术,该技术的快速发展逐渐取代了传统的条形码技术,改变了图书馆的管理运作模式,实现了图书智能分拣、自助借还、安全门禁、自动化盘点等全方位的
以任务为中心的语言教学思路是近年来语言教学的一种新的发展形态,它把简单的语言知识的传授化为具有实践意义的课堂教学方式,引起了国内外语言学家和教育学家的关注。为了了解国际最新动态,把握语言教学发展走向,我国有许多教育学家、语言学家和一线教育工作者都渴望能够读到国外与任务型语言教学相关的书籍。因此笔者决定翻译《任务型语言教学的新视角》一书,首先,这本书的语言并非晦涩难懂,不论是经验丰富亦或是初出茅庐的
物联网和云计算等新兴技术给物流的传统生产模式带来极大的变革,新兴技术在智能仓库得到广泛应用,智能仓库作为智能物流的重要一环,在智能仓库中部署了大量的物联网设备,任务的分析和处理给云计算带来挑战性的大量数据。应用在智能仓库中的云计算系统是以集中方式进行管理的,无法充分利用智能仓库的资源,并且现有的远程部署和网络资源短缺等因素导致任务执行效果不理想,要求云计算层对每一个从仓库上传的请求进行处理,这并不
核电工程建设规模大,涉及领域广,接口复杂,持续时间长,进度管理难度大,海外核电工程尤是如此。对项目进行有效的进度管理,按期完成项目建设,是项目管理团队的核心任务之一。建立符合海外核电工程进度管理体系,以实现主合同进度目标为目的,实行计划分级管控,通过PDCA循环过程,不断进行计划纠偏,采取有针对性的措施,实现进度控制目标。
随着电商行业的崛起,快递物流行业迎来了蓬勃的发展。现如今各种快递公司例如顺丰、京东物流、菜鸟驿站等时刻都在运输着我们的快递,为我们的生活带来了许多的便利。然而,我们也遇到了许多快递运输的乱象例如快递的丢失或误送、配送的延误、物流信息时效性等问题。这些问题不仅严重影响了客户的体验,而且也增加了物流行业的成本。针对上述问题,本文对物流配送的基本离散数学模型——多旅行商问题(MTSP)进行了深入的研究,
随着科技的发展,图像获取设备逐渐大众化,获取图像的成本也越来越低,因此在计算机视觉领域,对于图像分割的要求也越来越高。尤其是面对污损图像时,要求分割模型可以准确分割出目标的轮廓,污损图像是指图像中目标的像素信息丢失或者图像中包含各种噪声污染等,造成像素信息丢失的原因可能是目标被别的物体遮挡或者图像在传输的过程中一些像素丢失等。传统的基于水平集的分割方法借助曲线演化理论而被学者接受并拓展研究,在图像
气体传感器是检测气体成分和含量装置的重要组成部件。气体传感器可以检测到某特定气体并确定其浓度,当气敏材料与气体接触后会发生物理或化学作用,导致质量、电学参数、光学参数等特性参数的改变,进而把被测气体种类或浓度的变化转变为电阻的变化,再将电阻的变化转化为传感器输出端电信号的变化,最后通过信号调节和转换电路将取得的电信号进行处理、输出,从而实现气体检测的目的。本文以纯NiO气体传感器为基础,采用水热法
进入二十一世纪以来,随着我国经济高速发展,人民生活水平日益提高,城市化率不断增长,工业生产不断扩大。由于管道运输的各项特性,其运输总量逐年上升。然而管道系统发生渗漏是一个普遍存在的问题,给社会造成巨大的资源浪费和严重的经济损失,甚至会危害人民生命。因此,对管道运行状态进行密切监控,对于保障管道健康运行,确保国民经济健康发展有十分重大的意义。近年来,随着分布式光纤传感技术日益发展与成熟,工程人员开始