【摘 要】
:
对比模式清晰表述了含有类标签的数据集之间的各类差异,它能够捕捉各类数据之间的区分性特征,常被用来建立高精确的分类器。然而,对比模式挖掘是一项NP-Hard的任务,其产生的候选项集接近2k次方。通常,传统的挖掘算法是串行运行的,在一台独立的机器上运行,而单台机器存在CPU、内存方面的限制。因此,传统的方法在挖掘对比模式的时候出现瓶颈,尤其面临大规模和高维度的数据集时,容易产生内存溢出、无法有效挖掘等
论文部分内容阅读
对比模式清晰表述了含有类标签的数据集之间的各类差异,它能够捕捉各类数据之间的区分性特征,常被用来建立高精确的分类器。然而,对比模式挖掘是一项NP-Hard的任务,其产生的候选项集接近2k次方。通常,传统的挖掘算法是串行运行的,在一台独立的机器上运行,而单台机器存在CPU、内存方面的限制。因此,传统的方法在挖掘对比模式的时候出现瓶颈,尤其面临大规模和高维度的数据集时,容易产生内存溢出、无法有效挖掘等问题。针对上述问题,本文研究基于Spark的并行对比模式挖掘算法及负载均衡策略,来有效的挖掘大规模和高维度的数据集。本文主要研究内容如下:(1)提出一种基于Spark的并行对比模式挖掘算法SPCP。算法先构建一棵EDCP-Tree,通过EDCP-Tree生成1-item的KCP_Info数组结构,在此基础上构建相互独立的m-item候选模式结构,最后,根据m-item的后缀候选模式并行挖掘对比模式,该算法通过将对比模式的搜索空间划分为独立的单元,这些单元可以被并行挖掘,为大规模和高维度的数据集提供一个可扩展的解决方案。本文使用两个不同规模和维度的数据集,在Spark集群上测试算法的性能。实验结果表明,本文提出的算法实现了高度的并行性和可扩展性。(2)在分布式Spark集群环境下,并行算法的执行效率受运行时间最长的节点控制,因此并行算法的挖掘效率受集群各节点的计算量的影响,所以在Spark集群环境下,各节点之间的计算量的平衡性是本文研究的一个重点。对于Spark默认的Hash Partitioner策略和Range Partitioner策略,在划分数据集的时候并没有考虑节点之间的权重计算,而是直接根据key或范围进行分区,容易造成数据倾斜等问题。针对该问题本文提出一种面向对比模式挖掘的负载均衡算法BS-SPCP。算法综合考虑项集生成代价和项集之间的比较次数,借此估算节点的负载权值,使Spark集群中各节点之间的计算负载均衡。即通过估算m-item候选模式所产生的计算量,使得各节点中的总计算量趋于一致,从而实现集群的负载均衡,提高并行效率。通过BS-SPCP算法在负载均衡前后运行时间的比较,表明本文所提出的负载均衡算法可以使得各节点之间总计算量趋于一致,从而提高并行效率。
其他文献
水稻(Oryza sativa L.)作为中国乃至世界的主要粮食作物之一,目前其种植面积及其产量仍然受到盐胁迫的制约。当植物遭受盐胁迫后,植物细胞会感知并转导盐胁迫信号,调节植物体内相关抗逆基因的表达,从而减缓或抵抗盐胁迫对植物所造成的伤害。过氧化氢酶(catalase,CAT)是植物重要的抗氧化酶,它可以催化过氧化氢生成水和氧气,在消除氧化胁迫中起着重要作用。课题组前期发现,水稻CatC被类受体
温度是调控植物生长发育和决定地理分布的重要环境因子,低温胁迫会对植物的生长发育造成影响,甚至导致作物减产。水稻作为最重要的主粮作物之一,由于起源热带和亚热带,对低温敏感。温带粳稻是粳稻在驯化过程中获得低温耐受性从而适应温带环境的一种生态型。因此剖析温带粳稻的低温适应性遗传基础,不仅可以为水稻耐低温育种奠定理论支撑,也可以提供基因资源。本研究以对低温敏感的籼稻品种和耐冷的温带粳稻品种构建遗传群体,并
自然环境下生长的植物受到多种微生物的影响,而内生菌作为一种有益菌,在为植物提供营养元素的同时也能从植物获取营养促进自身生长,并且不会引起植物明显的病害症状。内生菌在农业上的作用广泛,可以促进作物的生长发育。在定植的过程中,内生菌分泌的效应蛋白影响植物免疫响应以达到共生建立的目的。效应蛋白从靶向结合植物表面类受体激酶(receptor-like kinase,RLK)、调控转录表达等方面抑制植物免疫
2004年以来,石墨烯的发现让二维材料受到越来越多的关注和研究。由于超薄的厚度、原子级平坦的表面,二维材料拥有体相材料中不具备的机械、电学、光学和热学等特殊性能。近年来,各种新型二维材料及其合成方法不断涌现,特殊的性能也被逐渐挖掘。此外,二维材料之间还能形成不同类型的异质结,其化学成分和电子结构都高度可调。这些进展为二维材料在集成电路和柔性器件等方面的应用奠定了坚实的基础。超薄金属氧化物(MO)相
由于二维(2D)过渡金属硫族化合物(TMDCs)具有较大的激子结合能,因此这种材料为研究激子态及其相关光电子学提供了理想的平台。不同偏振状态的光激发材料,导致了不同的光-物质相互作用,深刻理解这些作用机理对器件的应用具有重要意义。但由于通常使用的激光光源为线性偏振光,其聚焦后为样品面内偏振的,限制了与样品平面垂直的方向的有效激发。因此,需要一种合适的方法来研究二维TMDCs材料在面外电场作用下所产
碳及其复合材料因其轻质、耐高温、抗腐蚀、热力学性能优良等特点,在越来越多的领域逐渐代替金属材料。但其耐磨性、导电性和电磁屏蔽性差等缺点一定程度上限制了其应用,表面金属化可极大地提升这些性能。传统的粗化中使用的铬对环境危害极大,活化过程中使用的钯成本高、资源紧张。本文通过研究无铬粗化与无钯活化实现碳纤维增强环氧树脂复合材料(Carbon Fiber Reinforced Epoxy Resin Co
整合素在动物细胞信号传导、细胞黏附、细胞运动等过程中起着重要作用,与人类很多的疾病相关,如在癌症的病理进程中与癌细胞的运动和扩散有紧密的关系。在植物和微生物体内也存在着与动物整合素相似的类整合素蛋白。在本实验室的前期研究工作中通过蛋白质组学技术,在OsiSh-2中鉴定到一种类整合素蛋白(Integrin-like protein,ILP),该蛋白质可能与OsiSh-2响应稻瘟病菌的刺激相关。本论文
随着科学技术和现代工业的快速发展,机械设备也变得复杂化、精密化和紧凑化。一旦机械设备的某个环节出现故障,将会影响设备的正常生产,甚至引起人员伤亡事故。因此,研究有效的机械设备状态监测与故障诊断技术,对及时判断和防止设备故障的发生具有重要的现实意义。齿轮箱是机械系统中重要的零部件,确保其良好的运行状态直接关系到整个系统的正常生产。然而,由于机械设备的复杂性以及工况的恶劣性,采集的振动信号往往是复杂非
近年来,由于高的能量密度和低的还原电位,碱金属阳极在负极材料的竞争中脱颖而出。然而枝晶生长、严重的安全隐患等问题大大限制了碱金属电池(AMBs)的商业化应用进程。这可主要归结于电极/电解液或电极/电极修饰界面的某些缺陷,例如:电极界面能量,电势或者离子分布的不均;枝晶的累积加剧电池恶化;传统人工SEI与电极之间界面黏附不紧密/不均匀以及无机层SEI调控困难等。本论文主要从界面设计的角度提出一些新策
Al-Si合金具有优异的铸造、耐蚀和耐热性能,在汽车和航空航天工业中得到了广泛的应用,Al-Si合金的铸造过程中容易形成粗大片状的共晶硅,严重影响了Al-Si合金的力学性能和加工性能,所以Al-Si合金的生产过程中一般要进行变质处理。Al-10Sr合金由于其有效变质时间长、无过变质、不污染环境等优点,常被作为铸态Al-Si合金的变质剂,Al-Sr合金的变质效果取决于合金中Al4Sr相的形貌和尺寸。