论文部分内容阅读
本文讨论了利用BI技术将分析决策所需数据从税务机关日常运行环境中分离出来,使用户能够方便地提取所需的数据,同时又不干扰业务数据库的正常运行。解决方案是在原有数据库基础之上构建数据仓库系统。
江苏国税管理信息系统(StateTaxationAdministrationInformationSystemofJiangSu,缩写为STAIS)归根结底是一个事务处理系统,它在决策支持方面的功能很弱。BI是对信息的收集、存储、分析和应用的技术,它主要由数据仓库、OLAP和数据挖掘等技术组成,两者之间有很强的互补性。本文从数据源、系统结构、技术平台、数据仓库构建、基于数据仓库的信息处理、多维建模及OLAP应用等几个方面解决了建立基于税收管理信息系统的BI系统的一系列问题。作为全省国税系统的数据仓库的建设是一个十分庞大、复杂的工程,本人参与了整个系统的设计工作,并在常州等七个市的税收数据基础上建立了税户和税款两个重要的数据集市及OLAP分析应用。
本文的重点是关于BI的系统结构、多级ETL抽取框架、主题域划分的研究以及多维建模技术。本文的主要特色是:
(1)在STAIS基础之上建立BI系统。STAIS为BI提供了完备的数据源,BI则弥补了STAIS在决策分析方面的不足,两者相辅相成,形成了完整的税收信息化解决方案。(2)设计了一个切实可行的BI系统结构方案。BI系统的核心是数据仓库,本文在比较研究了当前流行的多种数据仓库结构的基础上,提出了一个BI系统结构,设计一个完整的BI技术平台。由于税收数据源非常复杂,该结构采用了多级ETL抽取框架,经过几个层次的存储区,并对微观数据进行了适当聚集,最终为OLAP或其他数据消费型应用提供一致的、干净的数据,同时也可作为各系统的异地备份。
(3)设计了灵活的可扩展的数据仓库逻辑模型。根据STAIS整合框架,将数据仓库中数据的组织方式按5大主题域进行规划。为支持五个主题域的目标和解决实际问题,设立了更多的主题进行多维分析。在数据仓库主题域设计完成的基础上,完成数据仓库全部主题的详细逻辑设计。
(4)设计并实现了多个重要的OLAP模型。当前BI技术的重点是OLAP,OLAP分析是基于多维模型的,为此,本文对多维建模技术进行了较深入的研究,在研究了多维建模的基本原理和基本方法的基础上,针对数据源的特点以及税务部门决策过程的迫切需要,建立了多个OLAP模型。