基于星型模型和普通ER模型的多关系序列模式挖掘研究

来源 :扬州大学 | 被引量 : 0次 | 上传用户:zitayangxin2
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
序列模式挖掘是数据挖掘领域中一个活跃的研究分支,有着广泛的应用前景,如顾客购买行为习惯分析、Web操作分析以及生物序列分析等,目前已经得到了广泛地研究。   但随着信息技术的发展,数据爆发式的产生,单表方式的数据存储已经不能满足实际需要。目前多关系数据库被广泛的用于数据存储,但如果考虑到多关系数据库的多样性时,多关系序列的挖掘将是一个复杂的问题。虽然理论上可以多表合并得到一张合并后的关系表,但多表合并会产生许多问题。如连接代价较高、数据冗余等。如何有针对性的高效的挖掘不同模型中的多关系序列模式,将是本文算法的主要目标。基于以上出发点,本文对多关系序列模式挖掘进行了系统的研究,主要研究工作包括:   (1)在星型模型中,在避免物化连接的前提下,高效地挖掘多关系序列模式。为此本文提出了一种基于序列Iceberg格的多关系序列模式挖掘算法,该算法采用优化的概念格分割、合并方法挖掘频繁序列。当表中数据量较大时,采用纵向切割,建立子格。避免了物化连接和对单表的挖掘,转向挖掘合并后的概念格。在合并过程中,每次只处理两张表或者两张子表并且直接过滤非频繁的序列,因此内存开销较小。实验结果表明,本文提出的方法可更加有效地挖掘多表序列模式,并为基于概念格的序列模式挖掘提供了理论支持和基本算法。   (2)结合知识背景高效地挖掘星型模型下的多关系序列模式。本文提出了一种基于前缀树结构的多关系序列模式挖掘算法。此算法可用于挖掘星型模型中所有表虚拟连接后的频繁序列模式。这种序列模式可以反映出不同关系表中实体间的联系,而这种跨表间的联系,是单表挖掘所不能提供的。算法结合知识背景,采用一定离散化方法和剪枝策略,为便于查询更新等操作,使用了改进后的前缀树等数据结构,使得算法取得了较好的性能。   (3)在普通ER模型中,在避免物理连接的前提下,提出一种方法用于挖掘多关系序列模式,且能够解决在星型模型中出现的统计偏斜问题。本文提出了一种ER模型下的基于元组传播的多关系序列模式挖掘方法,可较为高效的挖掘多关系序列模式,通过指定关键原子解决了基于虚拟连接表的统计偏斜问题。
其他文献
博客和微博客在线社会网络在互联网中作为人们聚集、交互信息的重要平台,以其不同的特点受到了国内外网民的普遍青睐,其中蕴含的多样化信息、信息传播规律等不断地被研究和挖掘
随着三维网格模型的数据规模日渐增大,高阶数字几何计算也日趋复杂,数字几何处理研究对相关算法的实时性要求也与日俱增。GPU的出现大大提高了相关工作的计算效率,并降低了显
主动服务是在Web服务的基础之上形成的一种新的软件开发模式,主动服务根据用户的需求的变更,实时检索网络中分布在各地的构件资源,实时组装以满足用户的需求,改变了软件不能根据
当前,嵌入式系统已广泛应用在各行各业。嵌入式微控制器作为嵌入式系统的核心,正处于迅速发展阶段。要想在嵌入式微控制器上建立各种应用,首先得为其开发相应的编译工具链。汇编
机动目标跟踪技术在军事和民用领域上有重要的应用价值,受到了学者的广泛关注。目前,随着科学技术的不断发展,目标的机动越来越复杂,如何提高复杂的机动目标跟踪性能尤为重要
油田地质体三维展示中空间对象的可视化一直是地学关注和研究的重要领域,也是多尺度三维地质体数字表征关键技术研究及应用的重点攻关内容,其目标在于实现三维地质体的数字表征
物联网技术是一种综合性技术,它包括了传感技术、无线通信技术、网络技术、嵌入式技术以及海量数据处理技术等诸多支撑技术。物联网技术的核心思想是利用传感技术采集现实环境
复合材料的图像分析是近年来国内外一个比较活跃的研究领域,其研究发展对于推动材料制造业的发展起到了非常重要的作用,有着广阔的应用前景。本文主要应用基于多样权值的离散距
近年来,随着计算机、网络、微电子等技术的快速发展,监测系统在工业、农业、环境监测等领域应用越来越广泛。监测系统主要由数据采集硬件设备和监测软件构成,然而,近年来监测系统
在现实世界中,往往存在着许多动态的多目标优化问题,由于此类问题具有多个依赖时间或环境的目标,并且这些目标可能是相互冲突、不可公度的,加之此类问题的最优解会随着时间而