基于Spark的不确定数据集频繁模式挖掘算法研究

来源 :昆明理工大学 | 被引量 : 0次 | 上传用户:shaochao0926
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
频繁模式挖掘的目的是从数据集中挖掘出有价值的模式,为利益相关方提供决策依据,其中在不确定数据集中的频繁模式挖掘是目前研究的热点。近些年,随着数据量的剧增,单机计算环境很难满足大数据的计算需求,因此借助于分布式计算平台来保证数据处理的效率是一种常用手段。传统的不确定数据集频繁模式挖掘算法大多以期望、概率或者权重等单一指标为数据项的支持度,难以挖掘出更有价值的频繁模式。针对以上问题,本文采用集群计算框架,兼顾数据项的概率与权重,提出了基于Spark的UWEFP算法和FPEWU算法,用UCI公共数据集对两种算法进行实验验证,实验结果表明所提方法合理可行,在保证结果的同时提高了效率。具体研究内容如下:(1)提出了数据项最大权重概率值的概念并应用于新颖的剪枝策略中。剪枝策略利用数据项最大权重概率值对一项集进行剪枝,从而挖掘出可同时兼顾数据项概率和权重的频繁模式。(2)设计了一种具有FP-tree结构特征的UWEFP-tree,通过UWEFP-tree进行模式树的构建及频繁模式的挖掘。(3)提出了基于Spark的不确定数据集频繁模式挖掘算法UWEFP,结合Spark的优点,按事务分组,在各组中分别进行模式树的构建,挖掘出符合条件的初始频繁模式,再将初始频繁模式的支持度与用户定义的最小支持度作对比,挖掘出可同时兼顾数据项概率和权重的频繁模式。实验结果表明,UWEFP相对于其他传统的算法,可以快速有效的挖掘出频繁模式。(4)为了降低UWEFP-tree在建树过程中的空间复杂度,设计了频繁模式树FPEWU-tree,通过FPEWU-tree进行模式树的构建及频繁模式的挖掘。(5)为了降低UWEFP算法的空间复杂度,设计了FPEWU算法。区别在于,UWEFP算法以事务分组,FPEWU算法以数据项分组。FPEWU算法在各组中分别进行模式树的构建并挖掘出同时兼顾数据项概率和权重的频繁模式。实验结果表明,FPEWU相对于其他传统的算法,可以快速有效的挖掘出频繁模式。针对稀疏数据集,UWEFP算法执行效率优于FPEWU算法;针对稠密数据集,PEWU算法的执行效率优于UWEFP算法。
其他文献
肌球蛋白可以通过组装域进行自组装形成具有双极性的粗丝发挥功能,是鱼糜凝胶形成过程中最重要的功能性成分。离体状态下肌球蛋白的结构和稳定性受环境因素的影响,钙离子是鱼
烟草是我国重要的经济作物之一,它从一开始就在农业经济和国际贸易中占有重要地位,是国民经济的重要组成部分。烟叶质量评价是风格特色烟叶研究、烟叶加工特性研究、模块配方
匹多莫德是一种人工合成的免疫加强剂,通过刺激与调节细胞介导的免疫反应而起作用。可以用于细胞免疫功能受抑制的病患反复发作的泌尿系感染、妇科感染、中耳炎和上下呼吸道
滇西地区富碱侵入岩形成于金沙江-哀牢山古缝合带及其两侧。与之相关的地幔流体作用是深部地质过程的重要构成,多金属矿床是其深部地质过程的外在表现。前人已经对滇西地区富
在气田水输送与回注工艺中,不同地质构造对气田水成分影响较大,尤其特殊地质构造下,气田水腐蚀性、结垢性强。使用常规气田水泵进行气田水输送与回注,水泵的故障率居高不下,
交叉脱氢偶联作为有效的碳碳键、碳杂键的构建方法,因其不需要预先功能基团化、原子利用率高、绿色化等优点而倍受人们关注。DDQ作为有效的氧化剂,在许多偶联反应中得到了广
觉罗塔格构造带是新疆东天山地区重要的成矿构造带,前人在东天山觉罗塔格构造带东段地区陆续发现了香山、黄山、黄山东、镜儿泉、图拉尔根等铜镍硫化物矿床,同时在其外围或相
嵩山世界地质公园位于河南省西部,登封市的北部,属于伏牛山系,是中国五岳之一的中岳。嵩山由两组山峰组成,东为太室山,西为少室山。太室山和少室山各有36峰,共计72峰,在72峰
近年来,国内外研究人员对大量的宇宙学观测数据的分析表明,宇宙处在一个加速膨胀的时期。传统宇宙学所提出的宇宙进行减速膨胀的理论逐渐被国内外学者所摒弃。暴胀理论很好的解释了早期宇宙加速膨胀的问题,而且对于标准模型所导致的三个疑难:平性问题,视界问题和磁单极子问题,提供了很好的解释。而且,除了解决了最初的经典问题之外,暴胀理论还预言了宇宙微波背景辐射和大尺度结构中的一些性质。暴胀理论表明,在辐射主导时期
本文是中国小绿叶蝉族Empoascini长柄叶蝉属群Alebroides group昆虫的分类研究论文。文中概述了该属群国内、外分类研究历史及现状;详细介绍了该属群的分类特征以及各特征在