论文部分内容阅读
中国办公自动化的理论经历了由文档型、综合型OA上升到决策型OA的
过程,决策型OA是以领导决策为核心,运用了国内外最新的研究技术—数据
仓库、OLAP(联机分析处理)和数据挖掘,提供给企业和政府机关的领导全
方位、多视角的分析本单位的信息,把单位的发展决策建立在量化的信息整合、
展现和预测基础上。
本文从一个实际的企业综合信息系统开始,介绍了数据仓库的概念、特征
以及与传统数据库的区别,讲述了构建数据仓库的具体步骤;给出了OLAP与
OLTP的差异,OLAP的评价准则,OLAP的几个概念:维、立方体、切片、切
块和旋转等,进而论述了OLAP的设计模式及立方体的数学模型;在第三章介
绍了数据仓库和OLAP在实际项目中的设计与实现。
本文后半部分重点阐述了数据挖掘技术的概念、方法和技术,介绍了国外
用于数据挖掘技术的流行算法--C4.5的基本思想,指出了其中的不足之处,给
出了改进技术—如何剪枝,同时剖析了作者所在项目组完成的一个数据挖掘工
具—INFOMAN的数据结构;在深入分析C4.5算法本质的基础上,又进一步提
出了利用信道容量来进行数据挖掘工作,分析了此算法的优点和不足之处。第
四章讲述了如何利用规则生成算法构建数据挖掘,在引入了通用规则算法的基
础上,给出了一个关联规则的数学模型。
本文阐述了设计数据挖掘的多种技术和方法,实际上每一种算法都有其适
用方面,有其优点和不足,并不能武断地认为一种算法一定比另一种算法好。
因此,在设计DM时,要优选合适算法,例如我们开发的项目的源数据类型就
适宜用C4.5决策树算法和规则生成算法来挖掘,而最近我们设计的某区交通决
策信息系统的源数据类型则适宜用神经元或蚁群算法来挖掘。
关键词:决策型OA、OLAP、决策树、熵、元数据、数据集市、剪枝