Spark下基于PCA和分层选择的随机森林算法

来源 :计算机工程与应用 | 被引量 : 0次 | 上传用户:wxiaof
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对大数据背景下随机森林算法中存在协方差矩阵规模较大、子空间特征信息覆盖不足和节点通信开销大的问题,提出了基于PCA和子空间分层选择的并行随机森林算法PLA-PRF(PCA and subspace layer sampling on parallel random forest algorithm).对初始特征集,提出了基于PCA的矩阵分解策略(matrix factorization strategy,MFS),压缩原始特征集,提取主成分特征,解决特征变换过程中协方差矩阵规模较大的问题;基于主成分特征,提出基于误差约束的分层子空间构造算法(error-constrained hierarchical subspace construction algorithm,EHSCA),分层选取信息素特征,构建特征子空间,解决子空间特征信息覆盖不足的问题;在Spark环境下并行化训练决策树的过程中,设计了一种数据复用策略(data reuse strategy,DRS),通过垂直划分RDD数据并结合索引表,实现特征复用,解决了节点通信开销大的问题.实验结果表明PLA-PRF算法分类效果更佳,并行化效率更高.
其他文献
目的:探究全麻联合硬膜外阻滞应用于卵巢囊肿腹腔镜手术的临床效果.方法:纳入2020年1月至2020年12月230例患者,根据麻醉措施将所有患者进行组别区分,患者分对照及观察两组,各115例,分别给予静脉复合吸入式麻醉和全麻联合硬膜外阻滞,统计对比组间患者的麻醉指标以及患者清醒后的质量.结果:观察组麻醉指标均低于对照组;观察组清醒后的优良率高于对照组,数据符合统计学标准(p<0.05).结论:将全麻联合硬膜外组织麻醉作用于病症患者,其效果较常规全身麻醉方式更好,麻醉时间和苏醒时间更短,药物清除率高,患者术后
近年来,随着可重构计算方法和可重构硬件特性的不断演进,基于FPGA动态部分重构技术构建运行时可重构加速器已经成为解决传统加速器设计中硬件资源限制问题的重要途径.然而,区别于传统静态重构加速器,FPGA的动态重构开销是影响硬件加速整体性能的重要因素,而目前尚缺少能够在可重构硬件设计的早期阶段进行动态重构开销精确估算的相关方法.为此,通过对主流FPGA的比特流配置文件进行剖析,提出了一种基于可重构功能模块消耗的资源估算相应部分重构比特流文件大小的方法,并在此基础上构建了运行时重构的性能开销模型.作为验证,在X
卫星定位服务综合系统(CORS)凭借量测精度高、操作便捷、不用另外重新架设测量基站、覆盖范围广等优势,日益受到大多用户欢迎.结合国省干线横四线顺昌关东至焕仔坑段(福建顺昌城关过境段)新建工程(二期)工程,运用CORS系统的RTK(实时动态载波相位差分技术)测量技术测量道路中线、纵横断面、施工控制点进行测量和详细分析,将全站仪中桩放样的平面坐标和水准点联测方式中桩高程与CORS系统测量的数据和精度进行统计对比分析,证明CORS系统下的测量数据结果更精准、更独立和效率更高.
目的:分析人文关怀联合体位护理在产房护理中的效果观察及满意度.方法:遴选2019年3月至2021年4月在我院接受生产的122例产妇病例资料,将2019年3月至2020年3月生产的接受常规护理的产妇列为参照组,将2020年4月生产的增加人文关怀护理和体位护理的产妇列为研究组.将两组产妇护理满意度进行对比.结果:从护理满意度看,对比结果(P<0.05),研究组护理满意度更高,与参照组比较差异显著.结论:在产房护理中增加人文关怀护理和体位护理可以提高产妇舒适度,缓解其负性情绪,提高产妇满意度.
目的:构建手术室护理管理模式,观察手术室护理管理在骨科手术患者医院感染护理干预中的应用效果,注重提升护理服务水平,整体优化护理管理效果,有效降低骨科手术患者医院感染的发生率.方法:随机抽选100例骨科手术患者,进行科学分组后于同一时期进行医院感染的护理干预,观察比较对照组与实验组骨科手术患者医院感染的护理效果、护理服务满意度,准确评估不同护理管理方式的临床推广价值.结果:实验组实行手术室护理管理后,患者医院感染发生率低于对照组,临床护理总有效率高于对照组;实验组骨科手术患者对于护理服务进行的满意度评价,均
具有优越性能的卷积神经网络算法已得到广泛应用,但其参数量大、计算复杂、层间独立性高等特点也使其难以高效地部署在较低功耗和较少资源的边缘场景.为此结合该种算法的特点提出了一种基于混合架构的卷积神经网络计算加速方法,该方法选用CPU加FPGA的混合架构,对网络模型进行了压缩优化;在FPGA上通过指令控制数据流的DSP阵列结构实现了卷积计算加速;通过YOLO算法测试了该方法的加速性能,在7000万门级FPGA上各类资源消耗低于50%且总功耗为7.36 W的情况下,吞吐率达到了120 GOPS.
目的 分析对新生儿呼吸窘迫实施肺表面活性物质联合无创通气治疗的效果.方法 抽取2020年1月至12月间我院收治的呼吸窘迫新生儿60例作为此次的观察对象,并根据随机数字表法将其分成各有30例的对照组以及观察组,分别接受无创正压通气以及肺表面活性物质联合无创通气进行治疗,并对不同的疗效进行对比分析.结果 肺功能指标,治疗前无统计学意义(p>0.05),治疗后,观察组优于对照组,差异具有统计学意义(p<0.05);并发症发生率,观察组低于对照组,差异具有统计学意义(p<0.05).结论 对呼吸窘迫新生儿实施肺表
检测托攻击的本质是对真实用户和虚假用户进行分类,现有的检测算法对于具有选择项的流行攻击、段攻击等攻击方式的检测鲁棒性较差.针对这一问题,通过分析真实用户和虚假用户的评分分布情况,结合ID3决策树提出基于用户评分离散度的托攻击检测Dispersion-C算法.算法通过用户评分极端评分比、去极端评分方差和用户评分标准差3个特征衡量用户评分离散度,并将其作为ID3决策树算法的分类特征,根据不同特征的信息增益选择特征作为分类属性,训练分类器.实验结果表明,Dispersion-C算法对各类托攻击均有良好的检测效果
针对二分K-均值算法由于随机选取初始中心及人为定义聚类数而造成的聚类结果不稳定问题,提出了基于密度和中心指标的Canopy二分K-均值算法SDC_Bisecting K-Means.首先计算样本中数据密度及其邻域半径;然后选出密度最小的数据并结合Canopy算法的思想进行聚类,将得到的簇的个数及其中心作为二分K-均值算法的输入参数;最后在二分K-均值算法的基础上引入指数函数和中心指标对原始样本进行聚类.利用UCI数据集和自建数据集进行模拟实验对比,结果表明SDC_Bisecting K-M eans不仅使
事件信息抽取是信息抽取任务中的一种,旨在识别并提出一个事件的触发词和元素.由于容易受到数据稀疏的影响,事件要素的抽取是中文事件抽取任务中的一个难点,研究的重点在于特征工程的构建.中文语法相较英文要复杂许多,所以捕获英文文本特征的方法在中文任务中效果并不明显,而目前常用的神经网络模型仅考虑了上下文信息,不能兼顾词法和句法特征.因此针对中文的词法和句法特点,构建一种结合分组长短期记忆网络(grouped long-short term memory,GLSTM)和Attention的中文事件要素抽取方法AGC