基于大数据环境下的高维数据和增量数据的关联规则挖掘研究

来源 :江西理工大学 | 被引量 : 0次 | 上传用户:countrygary
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网、传感器等技术的发展,社会的信息化不断被推进,全球数据的生产速度也在飞快增长。众所周知,移动通信数据是承载着通信业务与互联网信息的大动脉,是网络信息时代发展的重要基础设施。因此,通信大数据的概念越发受到关注,数据价值信息的挖掘也逐渐成为研究热点。其中,数据集中项与项之间关联规则挖掘技术的分析和发现也是数据挖掘过程中的重要分支。同时,该项研究挖掘的规则中所蕴藏的潜在价值也是前所未知的。因此,如何高效、准确的完成通信大数据环境下的关联规则挖掘成为一个热门的研究主题。目前,虽然传统关联规则挖掘算法在大数据时代下的改进取得了一定的成果,然而,通信大数据环境下的数据类型多样、更新速度快等特点,使得此类算法的优化研究仍具有被无限探索潜力。此外,现有的改进算法在执行过程中的复杂度依然很高,难以将并行化计算嵌入到其大规模数据中。鉴于此,本文分别从所挖掘的数据类型和通信大数据的环境特征方面着手,通过对数据预处理和算法步骤的改进,针对算法执行结果的精确度以及算法执行的效率进行提升。本文主要工作如下:针对大规模高维数据在基于FP-growth算法的挖掘过程中存在数据特征捕捉不准确、结点负载不均衡、数据交互频繁以及频繁项集紧凑化程度低等问题,提出了基于MapReduce的并行挖掘算法PARDG-MR(the Parallel Association Rules Mining Algorithm by using Dimension Granulating based on MapReduce)。该算法首先根据数据特征,提出基于维度粒化算法DGA(the dimension granulated Algorithm,DGA)和负载均衡算法GPL(the algorithm of Grouping method based on prefix length,GPL)的DGPL策略(dimensional granulation and strategy of grouping method based on load estimation,DGPL),从而完成对高维复杂数据特征属性的准确捕捉,并解决数据划分中结点负载不均衡问题;其次,提出基于PJPFP-Tree树的频繁项集并行挖掘策略PARM(Parallel Association Rules Mining Algorithm,PARM),来实现频繁项集的并行化分组过程,提升算法的整体速率;最后,针对候选剪枝策略,提出基于剪枝前缀推论PPL(pruning prefix lemma)的整合结点剪枝算法PJPFP(Pruning JFP-growth Algorithm,PJPFP),来提高频繁项集挖掘过程中的剪枝效率,增强频繁项集的紧凑化程度,进一步提升算法总体的挖掘效率。理论分析与实验结果共同表明,PARDG-MR算法不仅有效克服了高维数据在挖掘过程中的瓶颈,而且在内存消耗和挖掘效率上都有了极大的提高。针对基于MapReduce框架的Apriori关联规则挖掘算法产生候选项集较长、算法执行效率低等问题,以及大数据环境中数据快速更新造成增量处理等缺陷进行了研究,提出了一种基于项集动态加权的增量挖掘算法WDU-Apriori(weighted dynamic updating-Apriori)。首先该算法提出W-DPC(weighted dynamic passes combiner)机制作为其候选项集的结合方式,有效提高算法在大数据环境下的适应能力;其次对于新来的增量数据,设计了WBI(weighted border itemsets)策略,用于生成加权边界项集,以改进对于增量数据的挖掘效率;最后构建了CTP(calculate transform probability)方法,用于量化阈值边界项集变为频繁项集的可能性,这对先前的挖掘结果有了更高效的应用,降低节点负载的同时也解决了原始数据集扫描次数较多的问题。理论分析与实验结果共同表明,WDU-Apriori算法不仅有效提高了挖掘效率,平衡了每一个阶段的工作量,同时也有效降低了算法的时间复杂度。
其他文献
非线性动力学中,两个或两个以上的独立对象之间,通过各自内部的要素的相互作用,实现对象的输出或者输入产生变化的现象,可以称为耦合。非局域耦合是一种随距离衰减的耦合方式。全同相耦合振子系统在一定条件作用下演化成相干态与不相干态共存的时空模式即奇异态。本文主要研究对象为一维全同相振子系统,在非局域耦合的不对称性作用下,在合适的初始条件下,在系统中截取到了移动奇异态相位斑图。使用Runge-Kutta方法
为了研究罗非鱼群体的遗传多样性及其系统进化关系,以尼罗罗非鱼(Oreochromis niloticus)、奥利亚罗非鱼(O.aureus)、莫桑比克罗非鱼(O.mossambicus)、吉富罗非鱼(GIFT)和3种红罗非鱼(中国台湾红罗非鱼、马来西亚红罗非鱼、以色列红罗非鱼)7个群体为材料,对其线粒体细胞色素氧化酶亚基Ⅰ(COⅠ)的序列进行PCR扩增和序列比对,分析7个罗非鱼群体的遗传变异情况。
同种异体脱矿骨材料在体内主要用于骨缺损填充与修补。为了验证该材料的有效性,应进行动物试验评价其成骨诱导能力。目前,研究材料成骨诱导能力的方法主要包括体外实验、体内原位植入试验和体内异位植入试验。体外实验一般是通过在材料上培养细胞,检测细胞中部分成骨标志物的变化来研究材料的成骨诱导能力。但体外实验只能作为间接实验证据。体内原位植入实验则可能会因为植入部位自身具有的骨形成能力而产生假阳性结果。
近年来,随着计算机技术、互联网的快速发展,网上用户规模与内容服务呈几何数量级增长。海量的信息超过了个人能接受的范围,导致了信息过载问题。推荐系统能够从海量数据中挖掘出有效的信息,节省用户查找的时间,已经成为解决信息过载问题的有效方法,并在各个领域得到了应用。矩阵填充技术利用矩阵中部分已知元素恢复出其他未知元素,能缓解推荐系统的数据稀疏性问题。本文针对矩阵填充及其在推荐系统中的应用展开如下工作:(1
无线传感器网络(Wireless Sensor Network,WSN)的运用已经非常的广泛,它涉及的关键技术之一是节点定位技术。WSN是由众多微型传感器组成,其重要目的是收集监测区域的信息,继而传递给监测者。节点在收集数据时需要依靠自身的感知功能完成这一操作,但是若在收集信息过程中无法获取数据的具体位置,将使得监测范围变成无法收集信息且也无法掌控的区域,也会使得WSN失去价值。因而,WSN中对于
本文探究了化工产业智慧园区建设的系统架构,并对化工产业智慧园区建设过程中涉及到的物联网技术、架构技术、云计算技术和信息安全技术等进行深入分析,论述了智慧园区建设过程中关于化工产业化背景下的基础设施、数字底板、运营管理平台以及综合服务平台等的建设方案,最后对智慧园区未来发展方向和发展建议提出了一定思考,旨在为我国化工产业智慧园区建设方案的科学化奠定更扎实的基础。
近年来,我国心血管疾病的病亡率仍处于不断上升的趋势,当务之急就是要进行积极干预有效防治,降低发病率和死亡率。心音信号能较准确地将心脏组织的状态信息、健康状况反映出来,因此对心音信号的处理有着至关重要的作用。心音信号分析与处理主要步骤有以下几个方面:降噪、包络提取、分割、特征提取和分类。本文研究主要围绕心音信号处理中的分割和分类方法展开的,具体开展的研究工作如下:(1)基于逻辑回归的隐半马尔可夫模型
优化问题广泛存在于科学和工程应用中,通常具有大规模、多模态以及多个目标之间相互冲突等特性。传统算法求解这些问题时,在计算成本、时间消耗上面临着越来越大的挑战。近年来,进化算法,尤其是群智能优化算法,因其在解决复杂问题时的高效和稳定而受到越来越多的研究,例如人工蜂群算法,蚁群优化算法和粒子群优化算法。其中,粒子群优化算法凭借独特的群体仿真行为与高效稳定的优化性能,已经被广泛研究并应用于各种优化领域问