论文部分内容阅读
数据库技术的逐渐成熟、网络技术的迅速普及和计算机硬件的不断出新,使人们采集数据的能力得到了极大的提高,从而导致了全球范围内数据存储量的急剧增大。为增强人们对这些海量数据的理解能力,数据挖掘技术近年来得到了快速发展。关联规则挖掘是数据挖掘的重要内容之一,1993年由Agrawal等人提出,它最初是以分析事务数据库中项与项之间联系为目标,后来的研究者们对问题原型进行多方面的改进和扩充。目前,关联规则挖掘技术已经被应用到商业、电讯、金融、农业、医疗等领域,取得了良好的效果。关系数据库是众多行业和部门用于存储其生产、管理和科研等大量信息的重要形式,数据量的增长极为迅速,积极研究在关系数据库中挖掘关联规则的有效技术具有极为广阔的发展前景。本文详细地阐述了经典关联规则挖掘Apriori算法,并通过案例进一步说明了算法思想,随后针对Apriori算法的不足,简要提出了几种相应的改进技术。随后提出了基于频繁模式树的FP-growth算法,具体分析了频繁模式树结构,及基于FP-tree的频繁模式挖掘,同时结合具体的案例对FP-growth算法思想进行了补充说明。论文提出的算法采用多级支持度并运用相关度从频繁项集中产生正关联规则,从频繁项集和非频繁项集中产生负关联规则,利用相关度α剪除较小价值的规则,通过设置合理的最小兴趣度并计算相关性和置信度,经过比较判断得到有效规则,并且提出了四种多级置信度和卡方检验测试关联规则的相关性和独立性。论文研究了关系数据库中关联规则挖掘工具原型的设计思路、主要功能及实现方法。一方面可以使其在成熟的关系数据库理论与技术的支持下保证较高的执行效率,另一方面也便于挖掘工具与关系数据库操作系统的无缝衔接,使其更具实用性和便利性。