基于经营决策为主题的数据挖掘的应用

来源 :电脑知识与技术 | 被引量 : 0次 | 上传用户:gtrfanfan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:应用ID3挖掘方法,将基于数据库的数据挖掘技术应用于企业的生产、销售实践中用决策树对产品进行定性分析,找到产品销售情况的决策信息;及用分类法对产品品种进行选择的具体过程。
  关键词:数据挖掘;决策树;ID3
  中图分类号:TP312文献标识码:A文章编号:1009-3044(2007)05-11198-01
  
  1 基本定义
  (1)数据挖掘
  数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。
  (2)决策树
  决策树是数据挖掘常用技术,代表着决策集的树形结构。
  (3)基于互信息的ID3方法
  ID3的基本思想:在一实体世界中,每个实体可用多个特征来描述。每个特征限于在一个离散集中取互斥的值。每个实体在世界中属于不同的类别,将一些已知的示例放在一起便得到了一个训练集。由ID3算法得出一棵正确分类的训练集中每个实体的决策树。实际上,能正确分类训练集的决策树不止一棵。ID3算法能得得出结点最少的决策树。
  (4)利用ID3算法进行数据挖掘
  ID3算法是由Quinlan提出来的。它是一种根据属性集的取值选择实例的类别的一种算法。它的基本原理是:设E=F1×F2×…×Fn是n维有穷向量空间,其中Fj是有穷离散符号集,E中的元素e=称为例子。其中Vn∈Fj,j=1,2,…,n。设PE和NE是E的2个例子集,分别叫正例集和反例集。
  假设向量空间E中的正例集PE和反例NE集的大小分别为p,n,ID3基于如下2种假设:在向量空间E上的一棵正确决策树对任意例子的分类概率同E中正反例的概率一致。一棵决策树对一例子做出正确类别判断所需的信息量为:
  如果以A属性作决策树的根,A具有V个值{V1,V2,…,Vv},它将E分成V个子集{E1,E2,…,Ev},假设Ei中含有Pi个正例和个反例,那么子集Ei所需要的期望信息是I(Pi,Ni),以属性A为根所需要的期望熵是:
  以A为根的信息增益是: gain(A)=l(p,n)-E(A)
  ID3选择gain(A)使最大即E (A)最小的属性作为根节点,对A*的不同取值对应的E的各子集Ei递归调用上述过程生成A*的子节点B1,B2,…,Bv。
  
  2 ID3算法实例
  在一实体世界中,每个实体用多个特征来描述。每个特征限于在一个离散集中取互斥的值。本例中实体产品销售情况,分类任务是得到关于产品销售情况见表1所示:
  表1 产品销售情况的特征和取值表
  例如:销售处343表示销售所属为销售处的记录有343条,其中销售情况好(利润率高)的为157条,一般(利润率中)为215条,亏损(利润率低)为32条。
  对于产品销售情况问题,根据上表采用ID3方法进行数据挖掘,具体计算如下:
  信息熵的计算:
  P(u1)=330/960,P(u2)=473/960,P(u3)=157/960
  H(U)=(330/690)log2(690/330)+(473/960)log2(960/473+(157/960)log2 (960/157)=0.439
  计算条件熵和互信息值见表2所示:
  表2 条件熵和互信息取值表
  故:I(销售利润率)的值最大。
  ID3算法将选择互信息最大的特征“I(销售利润率)”作为树根,在960个例子中对“:销售利润率”的3个取值进行分支,3个分支对应3个子集,分别是:
  F1={00008,00015,…… }共72项
  F2={00001,00002,00004,00006 ,000011 , …… }共606项
  F3={00003,00005,00007,00009 ,000010, …… }共282项
  其中,F1子集中的例子均为高,而F2、 F3子集的例子中含有不同的类型,将递归调用建树算法。
  递归建树
  (1)对F2子集利用ID3算法,在子集中对各特征求互信息。
  (2)对F3子集利用ID3算法,在子集中对各特征求互信息。
  通过对上面含有960个记录的训练集进行互信息的计算,可得到如下决策树,见图1所示:
  图1 ID3决策树
  根据决策树可得出以下规则:
  (1)决策树给出的第一个选择条件为销售利润率,这与经验常识相符,即利润率高的产品销售情况一定是好的,而利润率中等和低就要分情况而定。
  (2)在利润率中等和低时,要看产品的销售形式。
  (3)当利润率低,销售形式为抹帐、四大处室、低价结算时,此种产品销售情况为亏损。若销售形式为现金则要看产品属性,若为新产品则产品销售情况为一般,若为旧产品则产品销售情况为亏损。
  (4)当利润率中等时,销售形式为现金则要看产品属性,若为新产品则产品销售情况为好,是旧产品则要看异议处理,若有异议则产品销售情况一般,如果无异议则产品销售情况好。
  (5)当利润率中等时, 销售形式为抹帐, 销售所属为销售处,科技处,锻件,板材,则产品销售情况一般,是清欠则产品销售情况好。
  (6)当利润率中等时, 销售形式为低价处理, 销售所属为销售处,科技处,锻件,板材,则产品销售情况亏损,是清欠则产品销售情况好。
  (7)当利润率中等时, 销售形式为四大处室,看异议处理若有异议则产品销售情况亏损,如果无异议则产品销售情况一般。
  由以上规则,我们可以预测出某种新产品在那些时候销售情况是好, 那些时候销售情况是一般, 那些时候销售情况是亏损。企业管理者在销售情况好的时候可加大生产、销售力度,并尽量减少亏损情况的出现。此种预测方法可以说直接与企业经济利益相联系。
  
  3 结束语
  总之,决策树方法为在以前大量数据基础上得出的科学判断规则,为决策者提供许多重要的、极有价值的信息或知识。企业决策者、管理者可免去许多以前用于讨论、分析产品销售情况的时间和精力,并有效的排除一些人为因素的干扰,在最短的时间内做出正确的分析和决定,从而产生不可估量的效益。
  参考文献:
  [1]高文,KDD:数据库中的知识发现[J].计算机世界,1998,37.
  [2]朱国昱,数据仓库与企业信息门户[J].中国计算机世界, 2000,8.
  [3]全国经济专业技术资格考试用书编写委员会.实商业经济专业知识与实物[M].北京:经济管理出版社2002,225-254.
  本文中所涉及到的图表、注解、公式等内容请以PDF格式阅读原文。
其他文献
摘要:本文对特效制作中常用的函数、属性、事件进行分析,并通过一个简单的实例来说明。重點介绍了ActionScript技术。  关键词:计算机教学;ActionScript;动画  中图分类号:TP311 文献标识码:A 文章编号:1009—3044(2007)08—20564—02
期刊
摘要:当前网络技术在教育中的应用日益廣泛和深入,特别是Internet与校园网的接轨,为教育提供了丰富的资源,使网络环境下的学习真正成为现实。本文阐述了Blog&Wiki在本科教学中应用的可行性分析,然后建立一个基于Blog&Wiki的开放协作式教学模型。  关键词:网络技术;Blog;Wiki;本科教育;开放协作式教学  中图分类号:TP393 文献标识码:A 文章编号:1009—3044(20
期刊
摘要:網络工程师考试是全国计算机技术与软件专业技术资格(水平)考试(简称水平考试)的中级考试的一种。本文分析了2006年11月的网络工程师考试上午试题的结构,并针对其中涉及的难点、重点进行解答,使考生在今后的复习中更有方向性和目的性。  关键词:网络工程师;结构分析;难点分析  中图分类号:G642 文献标识码:A 文章编号:1009—3044(2007)08—20567—01
期刊
摘要:在分析影响教学质量因素的基础上,对运用LMBP算法建立教学质量评估模型进行了研究,介绍了LMBP神经网络预测模型的计算过程及学习方法,建立了教学质量评估的LMBP预测模型,经测试数据验证,结果比较准确,能克服各种人为因素,具有广泛的适用性。  关键词:教学评估;LMBP算法;神经网络  中图分类号:TP37 文獻标识码:A 文章编号:1009—3044(2007)08—20519—03
期刊
摘要:weblog作为一种新兴的网络交流工具已经广泛地应用到众多行业和领域,其在教育中应用也必将产生新的学习方式,甚至是教育理念的变化。本文就weblog在网络课程教学中的应用作初步的探讨,以期探索网络课程教学中新的學习模式。  关键词:weblog;网络课程;教学;应用  中图分类号:TP393 文献标识码:A 文章编号:1009—3044(2007)08—20589—02
期刊
摘要:利用USB可以实现较传统方式更有效、更经济、点数更多的多点数据采集。针对基于USB接口和LabVIEW平台的数据采集和数据处理程序设计中,常遇到的典型应用中的问题如:基于TCP的网络传输、软件滤波、数组组合、波形振幅统计、超限报警等问题,本文给出了较详细的解决方案和实用程序设计技巧。  关键词:USB;LabVIEW;数据采集;技术  中图分类号:TP331文献标识码:A 文章编号:1009
期刊
摘要:本文利用PB BLOB可以操作二进制大对象的特点,借助PB内置函数对PB的位操作能力进行了函数封装,扩展了PB的位操作能力并给出了在图像处理和工业控制中的应用实例。  关键词:PowerBuilder;二进制大对象;位操作;图像;工业控制  中图分类号:TP311.56 文献标识码:A文章编号:1009-3044(2007)05-11195-03    1 引言  PB作为一个开发工具,一直
期刊
摘要:虚函数是实现动态多态性的方法。包含虚函数的类定义的对象有一个虚函数表和一个指向虚函数表的指针vptr。本文探讨了影响vptr和虚函数表长度的因素。  關键词:虚函数;多态性;虚函数表;VPTR  中图分类号:TP311 文献标识码:A 文章编号:1009—3044(2007)08—20461—02
期刊
摘要:本文针对目前中小学CAI教学软件普遍存在交互性过低问题进行了探讨,介绍了一种能在易用性与高交互性取得较好平衡的編程语言Flash ActionScript,并结合《平面镶嵌》问题对其使用方法进行了说明。  关键词:CAI教学软件;软件交互性:Flash AS  中图分类号:TP311 文献标识码:A 文章编号:1009—3044(2007)08—20566—01
期刊
摘要:在分析结构化查询语句的基础上,提出了在VB中实现通用动态查询程序的原理和方法,并给出了具体的程序代码。  关键词:VB;数据库;查询   中图分类号:TP311文献标识码:A 文章编号:1009-3044(2007)05-11204-02    1 引言  Visual Basic 6.0 作为一种简捷、系统的Windows应用程序开发工具,具有强大的数据处理能力,被广泛应用于建立各种数据库
期刊