数据挖潜让业务说话

来源 :中国计算机报 | 被引量 : 0次 | 上传用户:pp
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  家庭收入还有没有可以增长的空间?对于现在很多挣钱不够花的家庭来说,仔细研究自己的潜力,看能不能工作再努力些争取涨工资,或者在空闲时间打打零工也是不错的开源方法。
  对于国家之命脉—税务工作来说,先将各种信息汇聚在一起,然后通过数据分析和挖掘,找到还可以增长的空间,多方比对增加税收,既可以充实国库,又可以帮助税务部门更好地为百姓服务,利国利民。
  随着税务行业信息化工作的不断推进,税务管理信息系统(MIS)发展逐渐成熟,省市级别的数据大集中已成为趋势,税务部门与其他政府部门之间的数据交换在日益扩展,各地的数据资源积累已达到相当的程度,整个行业的信息化正逐步走向数据资源的整合利用和深度开发。数据挖掘是数据分析的最先进手段,必将在税务行业的这一波信息化进程中起到不可替代的作用。
  数据挖掘目前已有成熟的商用软件,集成了如神经元网络、CRT、C5.0、关联规则等各种数据挖掘算法,用户界面友好,操作便捷。数据挖掘技术已经走出了学院的象牙塔,正在各个具体的应用部门发挥价值。
  南京地税自2003年5月起就开始接触数据挖掘技术,并在税收收入预测、稽查选案、纳税评估等应用主题中,深入研究了数据挖掘技术的应用,目前数据挖掘技术和数理统计技术共同构成了,南京地税决策支持系统的信息加工平台,承担了大量、复杂的数据分析工作,将数据转化为可用于辅助决策的信息。
  数据挖掘应用不同于MIS系统(MIS以操作为基准对业务逻辑进行再现),是以数据为基准,反溯业务逻辑。因此数据挖掘项目的开发不同于MIS系统开发。MIS系统的开发可以分条分块,寻找各个业务部门的业务知识的支持。而数据挖掘项目,所有的业务知识都有价值,但这些业务知识都归集在数据上,项目的核心人员必须首先熟悉数据,其次熟悉业务,其熟悉业务的程度和挖掘的成效成正比。
  每一种数据挖掘工具在实际运用过程中,都有自己的一套挖掘项目实施方法论,据我们观察是大同小异。数据挖掘项目实施过程大体上可分为需求分析、数据整理、建立模型、模型评估、模型发布五个阶段,其中各个阶段之间除了依次进行的顺序关系外,还存在叠代循环的关系。
  
  数据变换
  
  数据变换是指将原始数据转换成适合建模的数据,手法有很多种,具体采用哪种方式,要在建模过程中,根
  据预测的准确率进行调整。常用的有以下手法。
  
  绝对值和相对值的变换
  
  如税收金额增减状况,可以做成绝对值,即增减额,也可以做成相对值,即增减率,相对值还可以做成环比、定比等。
  
  离散度的变换
  
  连续变量转换成离散变量是一个非常考究的过程,是否需要转换,以及离散度的确定,最终都需要根据预测精度的变化来调整,通常需要通过数据的分布状况,以及对预测变量的影响来综合判断。比如税收增长率,是否需要变换成离散变量,如果转换成离散变量,到底分成几个档次,每个档次如何划分?大体上离散度的划分要遵循“二八”规则,具体如何解决要在建模的过程中不断尝试,没有完美的解决方案。
  
  函数的变换
  
  比如转换成标准单位、计算SD等等。
  数据变换是否有效有两种判断方式:一种是事前判断,主要通过条形图进行,例如在稽查选案项目中,查看收入增长率(目标变量)和稽查结果(预测变量)的条形图,观测稽查结果取值(比如是有税或无税)是否在收入增长率的取值中有明显的差异,如果根本没有太大的差异,说明变换不成功,或者根本没必要进行变换。二是在建模过程中判断。这也是没有办法的办法,依据模型的预测精度来进行调整变换的手法,需要无数次的尝试。
  
  结果数据集成
  
  对处理完毕的数据,按照实体将各个数据表的数据项归集为一张有很多字段项的宽表,如稽查选案应用,结果数据集成就是按税户归集其所有的属性和行为过程、行为结果字段。整个数据整理过程就是为了形成一张用于建模的宽表,宽表的字段项会非常多,超过100个也很正常。
  需要注意的是,数据处理要经历很多步骤,例如对税款所属期的纠错,据统计有超过200个步骤,烦琐的处理过程非常容易出现差错,数据处理过程中,要不断进行检查,特别是要检查处理的结果数据。数据处理过程必须要依赖工具软件完成,一般的数据挖掘工具软件,都是用数据流的方式来处理的,数据流可以重复应用,可以大大降低工作强度。
  
  建模
  
  建模是指将宽表数据按记录拆分为训练集和测试集,用训练集数据引用各种数据挖掘算法,建立训练分析模型。经调整后,该模型的预测精度达到预期目标,就可以用测试集数据对模型进行再测试,如果预测精度仍然能达到预期目标,则建模工作完毕。建模工作有三个命题需要选择:一是选择合适的挖掘算法。二是在宽表中选择合适的输入字段。三是选择算法中合适的参数。可以说建模是种艺术,其中技巧非常多,当然也可以不用任何技巧,只要把所有能想到的组合都试一遍,忍不住要放弃的时候,基本上离成功就不远了。建模绝对是对耐心的挑战。
  
  评估
  
  评估一个模型是否成功的标准是由税务机关的具体应用部门提出的。需要特别指出的是,应用部门通常会存在认识误区。一是不理解预测期间的概念,比如以年为一个预测期间,预测精度是90%,不代表每个月的预测精度都能达到90%。二是预测是建立在某种假设基础上的,当外部或内部条件发生重大变化时,该假设不复存在,模型的预测结果也就不再可用了,需要重新训练模型。所以数据挖掘项目的维护会比开发更为困难,并且训练模型是一个常项工作,应用部门必须对此有充分的心理准备。越是精密的技术越是脆弱。
  
  发布
  
  建模成功后,将真实数据导入,利用分析模型,就可以得到预测结果,用于某些决策活动,如稽查选案、纳税评估选案、收入计划控制等。但需要指出的是,无论数据挖掘技术多么高深、科学、精密,其提供的预测结果只能作为决策的参考,即只是辅助决策而不是替代决策。基于这一思想,数据挖掘过程中形成了副产品:一是数据整理阶段形成的一系列反映实体属性及行为过程和行为结果的数据表;二是分析模型中蕴含的规则,无论是神经元网络、C5.0、关联规则、各种聚类等各种挖掘算法模型,都可以生成一系列的规则,这些规则甚至可以用特定方式,由文本形式转为二维数据表。这两项副产品和预测结果可以一并提交给应用部门,来帮助其完成决策过程。我们在实际应用过程中发现,副产品的价值是高过预测结果的。
  在南京地税应用数据挖掘技术的过程中,前期单项技术应用取得的实际成效是有限的,然而正是在数据挖掘的实施过程中,对业务数据长期大规模深入分析,使我们对数据资源管理开发的认识水平有了质的提高。我们首次认识到基础数据的质量比想像中要糟糕得多,因此有了后来的数据审计和数据管理制度体系;我们认识到数据仓库的存储主题和应用主题,以及数据仓库的ETL和信息加工都有本质的区别;数据仓库的信息展现除了OLAP的多维分析报表,还需要其他展现形式;信息查询除了要符合准确性、及时性外,综合性和重要性也不能忽视……正是基于这些认识,南京地税把数据库、数据仓库、OLAP、数理统计、数据挖掘等各项数据管理及分析处理技术进行全面整合后,建立了平台性,能够支持战略决策、管理决策和操作决策的决策支持系统,系统应用过程中已经能够产生实质性的效果,数据资源管理、开发、利用工作走上了良性发展的道路。
其他文献
资金管理中心的作用是什么?大部分人会说资金管理中心可以创造经济效益,甚至会产生建立资金管理中心就是为了集中财权这样的错误认识。其实资金管理是财务管理的一项重要工作,同时加强资金管理也是推行全面预算管理的一个重要过程。    收支两条线的资金管理模式    黑龙江烟草下属的各级企业都拥有金额不小的资金,由于在烟草行业尚未完全建立以资产为纽带的母子公司体制,因此对下属企业的一些资本性支出项目(如长期投
Alan Greenberg, Wainhouse Research
位于西安高新区占地6000多平米的神州数码西安软件开发中心近日正式启用。这里,云集了神州数码为东亚银行、国家开发银行等多个客户进行的非现场开发项目。据神州数码融信软件有限公司总裁、西安开发中心的主要建设者董其奇介绍,作为重要的战略交付基地,西安软件开发中心必须随着公司业务的增长而达到相应的规模,这是公司对客户实现按预期交付的保障。    基地化开发成就最大价值    “西安软件开发中心的建设,标志
身处经济全球化背景下瞬息万变的商业环境,“时间就是金钱”这一历史悠久的商业理念得到前所未有的重视。为了在白热化的市场竞争中抢占先机,越来越多的企业希望员工、客户或合作伙伴等利益相关者,能在任何时间、任何地点以手机、PDA、笔记本电脑等移动办公设备,访问企业内部办公、客户关系管理和供应链管理等企业电子商务系统,在以更便捷的方式实现电子交易的同时,通过对重要商业信息的实时掌控和深度挖掘,实现超越竞争对
第一步 判断    “上不上SOA呢?”这是国内某保险公司信息中心王主任犹豫不定的事情。最近王主任注意到,几乎天天都有媒体报道SOA,上门游说SOA的厂商也是络绎不绝,但他对于怎么判断公司现有系统是否适合上SOA这个问题有点拿不准。尽管他对SOA很是动心,依然迟迟没有下定决心。  在众多IT厂商的推动下,SOA成为一个家喻户晓的概念。俗话说,世界上没有两片相同的树叶。同理,每个企业的IT系统都是独
宽严相济刑事政策是在我国法治建设日益推进以及构建社会主义和谐社会的时代背景下提出。为增强贯彻落实宽严相济刑事政策的可操作性,2011年7月28日,河南省高级法院、河南省检察院、河南省公安厅联合下发了《关于在办理刑事案件中实行非羁押诉讼若干问题的规定(试行)》,其中捕后轻刑判决率高低成为衡量非羁押诉讼实施情况的标尺,按照《河南省基层检察院业务考评计分细则(试行)》的规定,捕后轻刑判决率纳入考评基层院
2006年下半年,Web 2.0似乎沉浸于一片哀歌唱挽中,当人们开始担忧长尾与Web 2.0相互点亮的互联网魔术是否最终谢幕时,Web 2.0的先行者们再次探讨起为互联网创业者描绘无限前景的长尾理论……  对于Web 2.0的前途,无论Google还是Yahoo都曾各打各的算盘,但在Web 2.0前景惨淡之际,他们却也无一例外地躲过了这场危机。  也许,正是Web 1.0的余晖照耀让他们幸免于难,
中芯国际与武汉的合作可以说是各取所需,互补共赢。但机会与风险并存,要让双方的美好期望都实现,中芯国际与武汉还需要用实践证明。  据媒体日前报道,中芯国际计划在武汉兴建一座12英寸圆片代工厂。据说该项目前期不需要中芯国际投资,合作采取租用的融资方式,即包括土地、厂房、生产线设备等投入,均由武汉市政府支出,然后由中芯国际租用。武汉市政府为此项目预计投资100亿元。消息传出,外界评价不一。  中芯国际在
5.17世界电信日期间,中国移动通信向广大手机用户一揽子推出了多项极为实用的新业务,包括手机地图、手机邮件、BLACKBERRY等。今年的世界电信日不同以往,也是第一届“世界信息社会日”。对于“信息社会”的发展,中国移动副总经理鲁向东深有感触,他表示,当前,全球电信业已经开始向信息服务的方向转型,电信业以服务为宗旨,运营商应该思考如何让电信业服务于社会经济信息化,服务于整个“信息社会”的建设。同样
如果你喜欢摄影,就一定不会错过这款名为α-100的数码单反相机。因为它不仅是索尼(中国)有限公司向中国市场推出的第一款数码单反相机,而且它所持有的千万像素高分辨率CCD影像传感器和全新的Bionz影像处理器,能使α-100在轻巧、紧凑的机身上实现生动、逼真和低噪点的数码影像。还有同时发布的21款α数码单反相机专用镜头和包括闪光灯在内的40余款配件所构成的强大的α阵容,都给了足够让你动心的理由。