论文部分内容阅读
随着数据仓库和OLAP技术的发展,越来越多的企业运用OLAP技术分析多维数据,以支持管理决策。数据立方体中可能存在异常。对用户来说,异常可能意味着有待解决的问题,或者存在着商机。因此,有必要发现数据立方体中的异常。分析人员可以根据他的直觉和假定,使用诸如下钻、上卷等OLAP操作,去发现异常,但是这一探查过程搜索空间很大,人工探查数据,不仅容易迷失,而且难以发现异常或容易忽略异常。因此,用户需要一种机制来自动发现多维数据中的异常。
本文针对多维数据中异常发现的问题展开系统而深入的研究,分别研究了Top-K异常单元挖掘和立方体中多维时间序列的Top-K异常趋势挖掘两个问题,本文挖掘的是从多维多角度考察度量值是异常的立方体单元和趋势是异常的时间序列。
已有的基于发现的立方体探查技术通过比较立方体单元的度量值与根据统计模型得到的期望值,来计算每个单元的异常程度,并采用可视化的提示指导用户探查立方体。该方法必须在建立立方体的同时计算异常度,失去了灵活性又缺少用户个性化。
本文从实际问题出发,研究了Top-K异常单元挖掘和立方体中多维时间序列的Top-K异常趋势挖掘两个问题,所用的方法更具有效率和灵活性,主要工作包括:
1.多维数据中Top-K异常单元挖掘问题本文简化了基于发现的立方体探查技术中计算期望值的方法,通过消除重复计算等优化策略,大幅度提高了效率。增加了用户个性化,只针对任务相关数据集挖掘从用户感兴趣的各个维考察是异常的单元。本文在以Mondrian为实验平台的原型系统中实现和测评算法。
2.多维数据中Top-K异常趋势挖掘问题本文提出了自底向上和自顶向下两种思路相结合的多维时间序列趋势提取方法,既保证尽可能多地发现全部趋势,又消除了“过分段”,保证了全局优化性。本文准确定义了异常趋势,设计了基于实际序列与期望序列分段比较的Top-K异常趋势挖掘算法,并在原型系统上进行了实现和评测。