基于粗集与位阵的关联规则挖掘算法研究

来源 :中南大学 | 被引量 : 0次 | 上传用户:hwcareers
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
作为数据库研究领域中的热点,数据库中的知识发现(简称KDD)正在受到越来越多的关注。它被定义为在数据中寻找正确的、有趣的、潜在有用的并最终可以理解的模式。对关联规则的挖掘在许多数据挖掘任务中都有重要作用,有着广泛的应用范围。随着被挖掘的数据集在大小和复杂度上的飞速增长,研究高效可伸缩的挖掘算法对保证系统的可伸缩性和交互性至关重要。 关联规则挖掘算法使用格理论中的组合特性来将原始问题分解为许多更小的互相独立的问题。最有名的和最有影响力的算法包括Apriori算法和FP-growth算法。 粗集理论根据对一个系统的观察和测量所得的现实数据信息,从分类的观点,以集合近似、近似分类与不可分辨的概念为基础,通过知识约简从中发现、推理知识和分辨系统的特点、过程、预测系统的结果等。DM_R算法尝试利用粗集理论中关于等价类的概念,针对单维布尔关联规则问题提出的一种挖掘算法,并利用兴趣度对规则进行评价。DM_R算法借助不可分辨关系的概念,将事务数据库按照交易集合划分等价类。该算法从k-候选项集中可以直接产生k-频繁项集,同时还可以生成(k+1)-候选项集而无需搜索数据库,因此DM_R算法只需在生成1-候选项集时对数据库进行一次搜索,这会大大减少计算时间。 通过对各项交易设定不同的MIF值,用户可以灵活控制不同的关联规则的最小支持度阈值,可以发现包含非频繁交易的具有较低支持度的关联规则以及具有较高支持度的包含频繁交易的关联规则,同时又不会引入过多无意义规则。 由于现实世界事务数据库中,数据是随时间的变化而变化的,当前已发现的最大频繁项集可能不再生效,而新的有效最大频繁项集有待于重新去发现。因此,迫切需要设计高效的算法来管理、维护和更新已挖掘出来的最大频繁项集。目前国内外在对这一问题的相关研究中提出了Pincer Search、IUA、FIUA、FUFIA、FUMFIA等算法,这些算法主要是针对频繁模式树来进行单双向剪枝与重构,需要额外的存贮空间和较大的运算开销。 对此,本文提出了一种增量式更新最大频繁项集算法FAUMFI(Fast A1gorithm for Updating Maximum Frequent Itemsets),该算法将充分利用已有的一切信息(如旧的最大频繁项集、原来的BitMatrix等),以高效地发现最新事务数据库中所有的最大频繁项集,并分析了算法的效率。
其他文献
随着存储技术的不断发展,固态盘在计算机存储系统中发挥越来越重要的作用。新一代的固态盘不仅拥有优秀的随机读写性能,顺序读写性能也比磁盘优秀,而且非常节能。但固态盘的
随着Internet的迅猛发展,各种信息的不断膨胀,如何有效而准确地从Internet上获取信息变得越来越重要和困难了。在前人研究的基础上,本文针对Web文档检索的特点,提出了改进算法,从
随着电子政务建设的不断发展,电子政务建设和应用过程中的信息安全问题已经成为电子政务建设中亟待解决的一个突出问题。信息安全是建设电子政务的基础和关键。本文对电子政务
近年来,随着计算机图形学技术的不断发展,网格变形技术成了人们研究的热点,并且被广泛应用于很多领域。在医学仿真和辅助治疗系统中的软组织的变形就是网格变形技术的一种重
首先分析了现在流行的三维交互设备及其使用情况。并对图形学原理的基本内容,包括三维几何变换、坐标变换和三维观察进行了研究。在此基础上进一步分析了对象操纵技术和漫游
verilog是当前应用最为广泛的硬件设计语言之一,它可以用于硬件系统各种级别的设计、综合、仿真。PSL是一种标准的描述硬件和嵌入式系统规范的语言(IEEE-1850)。PSL的简单子集
中国画有着悠久的历史和丰富的遗产,在东方艺术中具有举足轻重的作用。近年来,随着计算机图形学技术的飞速发展,许多研究人员已经在中国画仿真中取得了卓越的可视化效果,这些
随着计算机应用的不断深入,大量的数据被存储在了关系数据库中,如何快速有效地从数据库中,特别是从相互关联的多个数据库中检索出用户所需要的数据,是数据库检索领域近几年的
微博用户的可信度研究已逐步成为当前微博研究的热点之一,其目的是对微博用户的身份类别进行一个客观、合理的评价,有效鉴别微博中的虚假用户。然而现有的鉴别方法大多停留在
计算机技术正在日益影响人们的生活方式和行为习惯,为用户提供安全有效的身份认证服务则是其中的核心技术之一。公钥基础设施PKI是一种广泛使用的身份认证解决方案,可信计算