论文部分内容阅读
关联规则挖掘是数据挖掘领域的重要组成部分,旨在发掘数据背后隐藏的、潜在的、频现的相关关系与模式。多尺度科学是一个新兴的科研领域,核心是剖析研究客体多层次、多尺度的构成特点,以及多尺度表现形式背后的原因和各个表现尺度之间更深层的关系。多尺度理论已被引入到空间数据挖掘中,针对空间数据的多尺度特性进行了初步的研究。论文将多尺度理论引入数据挖掘领域,并将其拓展到更为广泛的数据类型中,以关联规则挖掘为切入点,研究更为普适的多尺度数据理论与多尺度数据挖掘方法。围绕多尺度科学的研究核心,研究以相关概念为主体的多尺度数据理论,给出了多尺度数据挖掘指导框架,并在理论和方法框架的基础上,提出了多尺度关联规则的尺度上推和尺度下推挖掘算法,实现了关联规则的多尺度挖掘,为用户的多尺度决策提供了理论与方法的支持。本文以多尺度关联规则挖掘为研究核心,主要完成了下述几方面工作:1)研究多尺度数据挖掘理论。针对目前多尺度数据挖掘领域缺少体系完整、普适的理论基础这一问题,从数据的多尺度,多尺度数据挖掘和多尺度数据挖掘过程框架三个方面研究了多尺度数据挖掘理论。首先,基于概念分层的思想提出了数据尺度划分、数据尺度和元尺度数据集的概念,据此引申出多尺度数据集间祖孙、父子、兄弟、上下层等关系,初步形成了数据多尺度的概念体系;其次,给出多尺度数据挖掘的定义,将知识的多尺度转换作为多尺度数据挖掘的核心,根据广义的尺度转换分类,将多尺度数据挖掘算法分为尺度上推挖掘算法和尺度下推挖掘算法,确定了多尺度数据挖掘的本质和方向;最后,分阶段构建了多尺度数据挖掘过程框架,用来指导和规范多尺度数据挖掘过程。2)提出尺度上推关联规则挖掘算法。针对目前尚无明确的多尺度数据挖掘算法问题,从关联规则挖掘入手,以多尺度转换为核心,基于采样理论和Jaccard相似性系数提出了尺度上推关联规则挖掘算法SU-ARMA(Scaling-Up Association Rules Mining Algorithm),算法实现了多尺度数据间知识的向上推导。3)提出尺度下推关联规则挖掘算法。同样针对关联规则挖掘,并以尺度转换为核心,基于插值法中的距离倒数加权法提出了尺度下推关联规则挖掘算法SD-ARMA(Scaling-Down Association Rules Mining Algorithm),算法实现了多尺度数据间知识的向下推导。并利用相关统计学原理和机器学习理论对SU-ARMA和SD-ARMA算法错误率的置信区间给出了推导和证明;分析了两算法较传统关联规则挖掘方法的优势,并且阐述了二者的适用领域。4)对多尺度数据理论和多尺度关联规则挖掘算法进行实验验证。将提出的多尺度数据理论与多尺度关联规则挖掘算法应用于IBM T10I4D100K数据集和尺度特性明显的H省全员人口真实数据集进行实验。实验结果表明算法具有较高的覆盖率、精确度和较低的支持度估计误差,效率也较直接使用传统的Apriori算法有明显提升,是可行且有效的。