不平衡数据的离散化算法及其并行化

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:user1944
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的发展,信息增长速度越来越快,数据挖掘已成为当今的研究热点,不平衡数据分类就是其中一个重要的分支。在知识挖掘之前需要对繁杂的数据进行处理,数据预处理中重要的方法之一就是连续属性的离散化。而现有的绝大多数离散化方法都有一个默认的前提条件:数据集中不同类的样本数大致相同,若将这些算法直接作用到不平衡数据集上,算法都将偏重于拥有多数样本的负类,而容易忽视我们更关心的少数类,无法取得合适的离散化方案,不利于后续的学习。此外,数据规模的不断增加对算法的运行速度也提出了挑战,利用GPU并行计算是解决这类问题的一个新趋势。因此,如何有效离散化不平衡数据和加快算法运行速度是本文的主要研究内容。针对不平衡数据的连续属性离散化问题,本文基于类-属性关联设计了一个新的离散化算法CARU。在分析类与属性的二维量化矩阵后充分考虑数据的分布情况,结合多个离散化标准定义了一个新的离散化准则CARU。利用该离散化准则设计实现了CARU算法。该算法从候选断点集中选取最佳的划分断点,得到较优的离散化方案,更有利于后续的分类学习。同时,分析在不平衡数据预处理中,离散化方法和SMOTE抽样技术组合后对后续分类结果的影响。最后实验结果的非参数检验表明,在36组不平衡数据集上与其他5个经典的离散化方法相比,本文算法更适合用于不平衡数据的连续属性的离散化;不同离散化方法结合SMOTE抽样技术后,本文算法由于选取的断点较合理从而造成的信息损失最少,相比其他离散化算法在后续分类中有更好的性能提升。针对加快CARU算法在处理大规模数据时的运行速度问题,本文基于GPU计算平台实现了并行CARU算法。通过分析CARU算法过程中的几个关键的计算步骤:不同属性值的排序、离散化准则的计算、拥有最大准则值的断点选择,以及不同属性之间的离散化,利用GPU并行计算的优势设计实现了并行CARU算法,此模型可扩展到多个GPU设备上使用。最后基于GPU并行的CARU算法与基于CPU串行的CARU算法的运行时间对比表明,在数据规模较大时,前者运行速度有更大的提升,在最好的情况下,双显卡与24个CPU线程相比,加速比可达6.7。
其他文献
该功能的目的是对气压监测系统内发生的故障进行诊断。诊断功能也可用来向气压监测系统模块传送可配置参数。
期刊
面康霜是我院研制的用于治疗痤疮、脂溢性皮炎的外用乳膏,经临床多年使用,疗效良好.笔者采用高效液相色谱法(HPLC)[1,2]对其进行了制剂质量标准的实验,并对多年临床病例资料
我国的高等教育进程体系在不断发展和壮大,传统的板书课程教学模式已经逐步转变为更加多元化、功能更加完备的多媒体设备教学并模拟成更加逼真的仿真教学环境,极大方便了广大
传统的术后镇痛,是根据病人的需要间断肌注止痛药,这种被动的镇痛效果难以令人满意.目前,临床上较理想的镇痛法,即硬膜外自控镇痛(PCEA)具有镇痛效果确切,药物剂量小、副作用
随着基础医学的发展,高科技技术的应用,血细胞分析仪的使用逐步取代了手工操作的血细胞计数方法。由于手工操作的方法不但费时费力,并且操作过程的随机误差,实验器材的系统误差和
改革开放以来,服务行业的服务水平有极大的提高,一些先进的服务理念和做法得到了社会的广泛认同。作为临床检验实验室,除了满足医疗技术工作自身的要求外,应主动学习和遵循一些服
我国确定2000年5月开展第四次全国结核病流行病学抽样调查.随机抽样抽取黔南州贵定县盘江镇清定桥村作为流行病学调查点,调查工作于2000年5月20日至5月30日完成,现将调查结果
本体促进法以神经生理学和神经发育学基础知识为理论基础,着重利用本体感觉刺激,来激活和募集最大数量的运动单位参与活动,同时激发其潜能来促进神经肌肉功能的恢复[1].调视
1资料与方法1.1临床资料观察2005年6月至2006年2月在我院施行腹腔镜胆囊切除术患者术后呕吐情况。手术末按采用氧(O2)与不用O2置换腹腔内二氧化碳(CO2)将98例患者分为2组。组1:64例
<正>一定的肺活量和结构、功能正常的声带在嗓音形成的机制中起关键作用。柔软而不受阻隔的声带黏膜波、良好的声带粘弹性和声门闭合度是发声的必要条件,尤其是声带膜部(声带