论文部分内容阅读
序列模式挖掘是数据挖掘领域中一个活跃的研究分支,有着广泛的应用前景,如顾客购买行为习惯分析、Web操作分析以及生物序列分析等,目前已经得到了广泛地研究。
但随着信息技术的发展,数据爆发式的产生,单表方式的数据存储已经不能满足实际需要。目前多关系数据库被广泛的用于数据存储,但如果考虑到多关系数据库的多样性时,多关系序列的挖掘将是一个复杂的问题。虽然理论上可以多表合并得到一张合并后的关系表,但多表合并会产生许多问题。如连接代价较高、数据冗余等。如何有针对性的高效的挖掘不同模型中的多关系序列模式,将是本文算法的主要目标。基于以上出发点,本文对多关系序列模式挖掘进行了系统的研究,主要研究工作包括:
(1)在星型模型中,在避免物化连接的前提下,高效地挖掘多关系序列模式。为此本文提出了一种基于序列Iceberg格的多关系序列模式挖掘算法,该算法采用优化的概念格分割、合并方法挖掘频繁序列。当表中数据量较大时,采用纵向切割,建立子格。避免了物化连接和对单表的挖掘,转向挖掘合并后的概念格。在合并过程中,每次只处理两张表或者两张子表并且直接过滤非频繁的序列,因此内存开销较小。实验结果表明,本文提出的方法可更加有效地挖掘多表序列模式,并为基于概念格的序列模式挖掘提供了理论支持和基本算法。
(2)结合知识背景高效地挖掘星型模型下的多关系序列模式。本文提出了一种基于前缀树结构的多关系序列模式挖掘算法。此算法可用于挖掘星型模型中所有表虚拟连接后的频繁序列模式。这种序列模式可以反映出不同关系表中实体间的联系,而这种跨表间的联系,是单表挖掘所不能提供的。算法结合知识背景,采用一定离散化方法和剪枝策略,为便于查询更新等操作,使用了改进后的前缀树等数据结构,使得算法取得了较好的性能。
(3)在普通ER模型中,在避免物理连接的前提下,提出一种方法用于挖掘多关系序列模式,且能够解决在星型模型中出现的统计偏斜问题。本文提出了一种ER模型下的基于元组传播的多关系序列模式挖掘方法,可较为高效的挖掘多关系序列模式,通过指定关键原子解决了基于虚拟连接表的统计偏斜问题。