论文部分内容阅读
数据联机分析挖掘(0LAM)是将OLAP和数据挖掘有机结合,OLAP的分析结果为数据挖掘提供分析信息,作为挖掘的依据;数据挖掘拓展OLAP分析的深度,发现0LAP所不能发现的更为复杂细致的信息;它能方便地对任何一部分数据或不同抽象级别的数据进行挖掘,得到更为详细、更为有用的信息,成为了数据仓库研究的热点.例外挖掘是数据挖掘中的一个重要研究方向,例外数据的挖掘往往可以使人们发现一些真实、但又出乎意料的知识.但传统的例外挖掘算法存在许多不足,比如缺乏用户的导向和控制,在挖掘之前就确定了挖掘空间,不能动态地根据中间挖掘结果选取挖掘空间等缺点,有必要引入基于数据仓库的例外挖掘研究.该文的研究目标是实现从某个特定主题的各个CUBE中发现更具有实用价值的多维度的、多层次的例外知识.该文工作如下:首先,构造了澜沧江空间数据仓库的原型系统,建立了一种体系化的数据存储环境,将决策所许需的大量数据从传统的操作环境中分离出来,使离散的、不一致的数据转成集成、统一的信息,使分析人员能快速、交互并方便有效地浏览数据,从而指导澜沧江流域的开发.该文第三章重点介绍了该系统的多维分析功能.然后,针对现有局部例外度计算复杂的困难,提出了一种新的局部例外度的定义.该定义是基于对象o的k距离和k距离邻域,是对象o的k距离与对象o的k距离邻域对象的距离比值的平均值.并证明了该定义能够挖掘出基于距离异常算法所不能识别的一类例外数据——局部例外.在此基础上我们讨论了OLAM挖掘模型,分析了OLAM挖掘方法的困难;针对0LAM挖掘的挖掘模式,提出了基于约束的例外挖掘算法和基于OLAP的探测试挖掘算法.其中,基于约束的例外挖掘算法是在挖掘之前,通过三种约束条件来限制挖掘空间,从而提高挖掘的效率.而基于OLAP的探测试挖掘算法采取边挖掘、边进行OLAP操作,提高了与分析人员的交互程度.最后,在澜沧江空间数据仓库的系统上实验验证了算法的正确性和有效性.