关联规则挖掘算法研究

被引量 : 0次 | 上传用户:guohl_sh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘技术是近年来数据库和人工智能等领域研究的热点课题,它引起了科学界和产业界的广泛关注。关联规则挖掘主要用于发现数据集中项之间的相关联系,是数据挖掘最先研究的问题之一,也是数据挖掘的一个主要研究方向。关联规则可以广泛地应用于各个领域,既可以检验行业内长期形成的知识模式,也能够发现隐藏的新规律。有效地发现、理解和运用关联规则,是完成数据挖掘任务的一个重要手段。本文首先对数据挖掘技术进行了较为简单的概括性介绍。然后在介绍关联规则挖掘基本算法—Apriori算法的基础上,对其性能进行了分析,并较详细归纳和分析了已有的一些典型的关联规则挖掘算法。接着介绍了基于关联图的关联规则挖掘算法,对算法性能进行了分析,指出了其存在的缺陷,并提出了两种改进的关联规则高效挖掘算法—基于完全子图的改进算法和基于有序树的改进算法。针对目前已有的关联规则挖掘算法在项目支持度阈值方面的缺陷,提出了项目支持度阈值的设定方法;并在已有的最小约束下的多支持度阈值关联规则挖掘算法的基础上提出了基于树的改进算法;在已有的最大约束下多支持度阈值关联规则挖掘算法的基础上提出了基于完全子图的改进算法。最后针对已有的关联规则挖掘算法在处理批量购买时存在的缺陷,提出了批量关联规则挖掘算法的构想。在基于完全子图的改进算法中,通过利用完全子图与频繁项集的对应关系,以完全子图结点的度作为判断标准,避免了一些不必比较项目之间的比较;同时通过对关联图的结点进行编号,完全避免了相同项目集的重复比较。从而使得在寻找k-项频繁集(k≥3)的过程中,时间复杂度远小于原算法的1/(k-1)。因此,该改进算法减小了存储空间,加快了挖掘速度,提高了算法的效率。在基于有序树的改进算法中,在对项目进行编号的基础上,得到有序的频繁2-项集,根据有序频繁2-项集构造有序频繁树。由于在树的各结点对是有序的,从而完全避免了相同项目集的重复比较。通过实例的分析得到:基于有序树的改进算法的挖掘效率加快了挖掘速度,提高了算法的效率。
其他文献
外资企业在我国走过了30多年的辉煌历程,随着我国经济体制的健全,对外环境的改善,外资企业的发展也面临着新的机遇与挑战。21世纪的竞争是人才的竞争。在华外企规划未来发展
本文以水射流技术在清洗中的应用为目标,分析了水射流清洗的特点、工作原理及其基本组成,对水射流的微观冲击机理进行了分析,同时应用流体力学的基本方程等理论,较深入地研究
2017年,国务院下发《国务院关于取消一批行政许可事项的决定》,明确取消木材经营加工行政许可事项。两年来,安徽省在严格贯彻落实国务院文件精神的同时,结合本省实际及时对木
<正>矿业资源开发曾为河北迁安创造了令人惊叹的经济发展,但同时也带来严重的生态破坏。近年来,迁安正视历史欠账,补齐生态短板,把矿山生态环境的恢复治理作为生态文明建设的
本文以傣族泼水节在建国前后从名称到内容的流变来透析同一仪式中对在场的各方力量而言,时空观有何不同并如何发生改变。全文共八个部分。引论部分笔者提出本文准备讨论的问题
目的对急性混合细胞白血病临床诊断中流式细胞术的应用价值进行探讨。方法方便选择该院2014年1月-2017年12月收治的初发急性白血病患者416例,应用流式细胞仪和三色荧光标记抗
体育场馆的疏散设计是体育场馆建筑设计中的重要组成部分,伴随着我国体育场馆建设的快速发展而越来越多地受到学界的重视。体育场馆疏散设计涉及建筑、设备、结构等多方面内容
我国的人口调控政策一直面临着两个问题:一是西方人权问题的诘难;二是关于人口自身变化所带来的质量、结构等问题的挑战。在怎样的伦理维度下设计、建构我国的计生政策,不仅
随着社会主义市场经济的发展,我国劳动关系也发生了巨大的变化。劳动关系是在劳动力和生产资料分别归属于不同所有人的情况下,劳动力所有者按生产资料所有者的指示工作,生产资料
在知识经济时代,高技术产业成为社会经济发展的主要驱动力,各界各国政府不失时机地采取各种政策,加速高技术产业的发展。而大学科技园作为加速科技成果转化,促进高技术发展的有效