并行Apriori算法的性能优化技术研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:lovechenhua
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机和互联网技术的不断发展及在各行业中的广泛使用,人们积累的各种数据成爆炸式增长,如何有效利用这些数据,是目前所面临的重大挑战。而企业往往也需要从大量的数据中挖掘和分析,得出准确有用的信息,这使得关联规则挖掘算法尤为重要。传统的并行Apriori关联规则算法在解决这类问题时由于存在着一些固有缺陷,因此效果表现不佳,而本文主要研究并行Apriori算法的性能优化技术。本文对传统的串并行Apriori算法进行深入分析,重点研究并行算法在逻辑流程方面和物理实现方面的优化技术,取得了以下几个方面的研究成果:1.提出关于并行算法逻辑流程的优化技术。通过研究当前并行算法的逻辑流程,给出了解决候选集过大和负载不均这两个缺陷的优化技术,并结合Trie树存储结构,给出了规则生成优化技术。实验结果表明,这些优化技术能够有效地减少候选集数量和减少负载不均情况,并提高规则生成效率。2.提出关于并行算法物理实现的优化技术。通过研究当前并行算法的物理实现,给出了解决数据库扫描次数过多缺陷的优化技术,并结合Trie树存储结构,给出了适应Trie树的内存分配优化技术。实验结果表明,这些优化技术能够有效地减少数据库扫描次数和提高内存利用率。基于上述研究成果,本文设计了并行Apriori算法规则挖掘系统。系统包括数据库模块,负载平衡模块,规则挖掘模块和规则生成模块等,能够有效地分析挖掘出所需的关联规则,为相关优化技术的实验和研究提供了一个基本的平台。
其他文献
随着网络用户的增加以及网络资源规模不断变大,网络已经成为一个巨大的能量消耗源。需要消耗大量流量的应用比如P2P和视频流传输,实时数据传输等规模也十分庞大,并且还有逐年
嵌入式Internet技术作为嵌入式技术与Internet技术相结合的产物,得到了广泛应用。随着Web技术的飞速发展,嵌入式Web服务器技术已经成为嵌入式Internet应用领域的一项关键技术
随着网络规模的急剧膨胀,传统英特网在扩展性、管控力、灵活性等方面存在很多问题。近年来迅速发展的软件定义网络(Software Defined Networking,SDN)正在悄悄打破这种僵局,
随着计算机网络技术与数据库技术的发展,教育信息化已经成为学校管理的重要内容。招生工作作为学校管理工作的重要内容,与学校相关职能部门之间存在许多信息交换。招生工作管
移动Ad hoc网络(Mobile Ad hoc network, MANET)也称自组网,是由一组带有无线收发装置的移动节点组成的一个多跳的、临时性的自治系统。网络中的各个节点可以任意移动,因而网络
自然语言中普遍存在着同义词和多义词现象,致使人们很难通过以词形匹配的关键词检索寻找到真正需要的网络资源。潜在语义索引通过奇异值分解将同义词映射到潜在语义空间的同
近年来,对自然景物中人造目标的识别与检测引起了广大学者越来越广泛的关注,无论在军事领域还是民用领域都具有非常重要的应用价值。桥梁作为人造目标的典型物之一,对其的识
面向对象数据模型具有强大的语义表达能力,能够精确地描述数据、数据之间的联系和数据完整性约束,使得对象模型在数据库和数据集成中的应用越来越广泛。由于构筑在对象模型基
在经济社会飞速发展的今天,天气预报的重要性日益彰显,涉及到社会生产、人民生活等诸多领域的切实利益。同时,随着计算机软件和硬件技术的周期性飞跃,海量实时监测资料的计算
进入21世纪以来,定位技术越来越被人们熟知和应用。定位技术有室外定位技术和室内定位技术两种。目前室外定位应用广泛、技术成熟,比如美国的GPS全球定位系统和我国北斗定位