基于分布式计算的关联规则挖掘算法研究与应用

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:sun_merry
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘是从大量数据中通过算法挖掘出有利于决策的信息的过程,关联规则挖掘作为数据挖掘的一个有效方法,能便捷地从数据中提取有用的知识。但是,传统的关联规则挖掘方法在处理至少数百万的大数据时挖掘速度较慢,且容易挖掘到冗余的关联规则。而且,传统方法在处理增量式数据时存在历史数据重复挖掘、规则挖掘准确率不高的问题。针对以上问题,本文基于分布式计算的思想,分别在针对关联规则的去冗余方面和对大数据的关联规则挖掘的速度优化方面进行了研究和探索,并且研究了一种增量关联规则挖掘算法,最后将算法应用到在线零售上为上层决策者提供有用的信息。本文主要工作如下:1.构建了一种基于分布式计算的较优关联规则挖掘算法。针对现有方法在大数据环境下挖掘速度较慢且挖掘到的关联规则存在大量冗余的问题,基于分布式计算将数据分为多个部分,采用针对不同项集长度的频繁项集挖掘方法从各个部分挖掘局部频繁项集并进行整合;然后结合深度优先搜索从最大频繁项集出发,根据提升度计算项集质量,根据相对质量大小去除冗余项集;最后仅对剩下的项集进行挖掘并生成相应的关联规则,而不是根据置信度生成规则。该方法减少了对冗余频繁项集的挖掘而产生的计算资源的浪费,且没有使用参数置信度来挖掘关联规则,减少了对参数置信度的调整时间。2.构建了一种增量关联规则挖掘算法。针对现有方法不能对增量式数据进行高效挖掘且挖掘到的关联规则准确度不高的问题,本文构造了一种优化的基于分布式计算的增量关联规则挖掘算法。该算法从保证挖掘准确率、提高挖掘速度出发,在面临新增数据的情况下避免了对历史数据的重复挖掘,只使用了历史挖掘结果保留下来的中间数据,并加入了位图检索方法进一步提高挖掘速度。3.基于关联规则挖掘的在线零售应用。针对在线零售应用场景存在的挖掘速度和挖掘信息存在冗余的问题,本文将基于分布式计算的MR-IARM算法应用在实际生活中的在线零售场景上,对商品数据进行了高效的分析决策,为上层决策者提供精准的信息。
其他文献
分析了潘一矿2171(1)保护层工作面的瓦斯来源,综合运用了底抽巷及尾巷抽放、下向穿层钻孔抽放采空区卸压瓦斯、采空区埋管抽放等瓦斯抽放技术,有效地治理了工作面的瓦斯涌出,
目前由于粉煤灰活性较差,多用作惰性充填材料,为了提升粉煤灰活性,对其进行了添加碱性激发剂氢氧化钠和氧化钙后湿磨改性试验。试验结果表明,经过湿磨和复合改性后,大部分粉
近年来,刀具砍杀事件时有发生,人民的生命安全受到极大的威胁,防刺服的研发日益受到关注。现有的防刺服存在重量过重,热湿舒适性差等缺点,研制轻质透气的防刺服成为新型警用防护装备研发的热点。论文借鉴生物护甲,设计了一种类似“金字塔”结构的防刺基板,使用激光烧结技术快速成型。通过刀具冲击基板的数值模拟和实验,研究了金字塔结构基板的防刺机理,得到了最优的结构设计:激光烧结尼龙3200(PA3200)材料基板
在贵州省深入实施工业强省战略的关键时刻,国务院颁布了《关于进一步促进贵州经济社会又好又快发展的若干意见》(以下简称《意见》),对推动贵州信息网络设施建设提出了明确的要求
全息天线利用全息结构记录参考波(源天线辐射场)与物波(期望得到的辐射场)相干涉产生的全息图案。传统的记录干涉场极小值点的方法对全息图案的记录不够精确,导致还原出的电
随着合成孔径雷达遥感技术的发展,微波遥感独特的成像机理及其全天候全天时成像能力,使其在区域和全球森林生物量估测方面具有其它光学遥感数据不可替代的作用,达愈来愈受到科学
近年来,随着世界能源需求的不断增长,石油等国际价格价格高企,俄罗斯经济走势趋好。俄罗斯是一个农业机械使用和需求大国,特别是在俄联邦政府采取更加积极的农业发展政策促动下,合
目的:慢性咳嗽是临床中最常见的症状,咳嗽反射敏感性增高可能是慢性咳嗽的重要机制,研究咳嗽高敏综合征患者喉部是否存在高敏及与咳嗽高敏综合征的关系,为咳嗽高敏综合征临床
追赶的发展态势、繁重的发展任务,对政府工作提出了更高的要求。印江自治县将继续深化建设“六型政府”,把更多心思和精力放在加快经济社会发展上,用在解决人民群众最关心、最直
期刊