论文部分内容阅读
当今大多数结构化数据存储在包含许多关系表的关系数据库中,众多的分析和数据挖掘任务,如在智能分析、社会网络分析、商业数据分析、web数据挖掘等都依赖于多种多样的实体和事件的联系,因此在这样的一些应用里数据库既包含属性又包含语意关系数据,正如对待单独实体的属性一样,这些数据以一组相互连接的表形式存在于具有多个关系表的数据库中,每个表对应于某个概念实体或者关系,多关系数据挖掘(MRDM:Multi-Relational Data Mining)就是从此类数据库中找出模型和规则。传统数据挖掘算法是针对单表数据进行处理的,而多关系数据挖掘是通过分析一个关系数据库的多个表中的数据发现存在于单个表及多个表的属性值之间的关联规则的过程。多关系数据挖掘的研究领域涉及多个学科,它在由多张表构成的关系数据库中进行知识发现。挖掘由复杂或结构化对象构成的数据也属于该研究范畴,因为在一个关系数据库中,要把这些目标数据进行标准化表述需要用到多张表。多关系数据挖掘旨在将一些已存在的并较为成熟的学科知识整合在一起,如归纳逻辑程序设计(ILP:Inductive Logic Programming),知识发现(KDD),机器学习,关系数据库等等,以此来为挖掘多关系的数据生成新的方法,并为这些新的方法生成可用于实践的应用软件。本文首先对传统数据挖掘技术的功能及模式、数据挖掘的一般过程以及数据挖掘的应用和前景进行了综述。然后介绍了多关系数据挖掘,以及它的研究意义和研究范畴,总结了它的应用现状。接着详细介绍了多关系数据挖掘经典方法,包括ILP、关系决策树、基于关系距离的学习等等。最后介绍一种新的挖掘多关系数据挖掘的方法,并对其进行改进。本文针对多关系数据挖掘的一种新思维:Iceberg-cube算法的思想上,进行了改进,使其可以处理更大范围内的挖掘问题,而且可以直接应用于多关系数据挖掘。本文的主要工作和创新点在于:1.论文对数据挖掘进行综述,并介绍了多关系数据挖掘。2.论文对多关系数据挖掘的研究现状和存在的一些问题进行剖析,并对多关系数据挖掘算法进行详细阐述。3.论文提出具有更高应用范围的新算法,实验结果证明新算法效率更高而且精确度也更高。