关联规则挖掘算法的研究

来源 :太原理工大学 | 被引量 : 0次 | 上传用户:wecofe
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着时代的快速发展和数据库技术的日臻成熟,产生的数据量以几何倍数增长,我们迫切地希望从海量数据背后挖掘出某些规律或者有价值的东西,也就是信息,来指导我们未来的发展。而数据挖掘正满足了这样的需要,它是一种新的信息分析技术,利用计算机[2]从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们预先不知道的、具有潜在利用价值信息和知识的过程。
   目前,数据挖掘主要分为关联规则挖掘、聚类、分类、时序模式发现等几大分支。而关联规则挖掘作为其中最为重要的一个分支,在应用方面得到了广泛的发展。关联规则挖掘是通过分析数据库,进而发现数据库中大量项集之间的关联关系。它最早由Agrawal提出,并在AIS算法基础上进行了完善而后提出了Apriori算法,Apriori算法是最经典的关联规则挖掘算法。它利用逐层搜索的迭代方法,从数据库中挖掘出满足最小支持度和置信度阈值的关联规则。Apfiofi算法分为连接和剪枝两步。但Apriofi算法有其固有缺陷:1、各阶段产生的Ck过大,尤其是当k=2时,候选集数目惊人。2、每生成一个候选集,都会扫描一遍数据库,造成了巨大的I/O开销,也增加了算法的时间复杂度。
   本文针对上述问题提出了一种改进的关联规则挖掘算法,主要思路为:
   1、采用矩阵这种数据结构,扫描一遍数据库,将原始事务数据库转化为0-1矩阵,不仅节省了存储空间,而且在进行数据挖掘操作时可抛弃原始数据库,只利用矩阵,减少了扫描数据库造成的I/O开销。
   2、利用原始矩阵和其转置矩阵,进行矩阵运算,得到2-候选集集合,矩阵运算简单,加快了项集的查找速度。
   3、根据结果上三角矩阵分析数据,减少了候选数据项的数量,更快的确定频繁项集,快速得到所需的关联规则。
   通过实验对比分析,该算法具有较低的时间复杂度和较高的运行效率。正因如此,加上矩阵占有极小的内存空间,将该算法应用到超市零售业的大数据集关联规则挖掘中,找出销售物品间的关联规则,为超市在今后制定销售策略提供了科学决策依据,因此该算法具有极大的实用性和适用性。
其他文献
学位
学位
学位
学位
期刊
学位
学位
期刊
学位
学位