论文部分内容阅读
摘要:应用ID3挖掘方法,将基于数据库的数据挖掘技术应用于企业的生产、销售实践中用决策树对产品进行定性分析,找到产品销售情况的决策信息;及用分类法对产品品种进行选择的具体过程。
关键词:数据挖掘;决策树;ID3
中图分类号:TP312文献标识码:A文章编号:1009-3044(2007)05-11198-01
1 基本定义
(1)数据挖掘
数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。
(2)决策树
决策树是数据挖掘常用技术,代表着决策集的树形结构。
(3)基于互信息的ID3方法
ID3的基本思想:在一实体世界中,每个实体可用多个特征来描述。每个特征限于在一个离散集中取互斥的值。每个实体在世界中属于不同的类别,将一些已知的示例放在一起便得到了一个训练集。由ID3算法得出一棵正确分类的训练集中每个实体的决策树。实际上,能正确分类训练集的决策树不止一棵。ID3算法能得得出结点最少的决策树。
(4)利用ID3算法进行数据挖掘
ID3算法是由Quinlan提出来的。它是一种根据属性集的取值选择实例的类别的一种算法。它的基本原理是:设E=F1×F2×…×Fn是n维有穷向量空间,其中Fj是有穷离散符号集,E中的元素e=称为例子。其中Vn∈Fj,j=1,2,…,n。设PE和NE是E的2个例子集,分别叫正例集和反例集。
假设向量空间E中的正例集PE和反例NE集的大小分别为p,n,ID3基于如下2种假设:在向量空间E上的一棵正确决策树对任意例子的分类概率同E中正反例的概率一致。一棵决策树对一例子做出正确类别判断所需的信息量为:
如果以A属性作决策树的根,A具有V个值{V1,V2,…,Vv},它将E分成V个子集{E1,E2,…,Ev},假设Ei中含有Pi个正例和个反例,那么子集Ei所需要的期望信息是I(Pi,Ni),以属性A为根所需要的期望熵是:
以A为根的信息增益是: gain(A)=l(p,n)-E(A)
ID3选择gain(A)使最大即E (A)最小的属性作为根节点,对A*的不同取值对应的E的各子集Ei递归调用上述过程生成A*的子节点B1,B2,…,Bv。
2 ID3算法实例
在一实体世界中,每个实体用多个特征来描述。每个特征限于在一个离散集中取互斥的值。本例中实体产品销售情况,分类任务是得到关于产品销售情况见表1所示:
表1 产品销售情况的特征和取值表
例如:销售处343表示销售所属为销售处的记录有343条,其中销售情况好(利润率高)的为157条,一般(利润率中)为215条,亏损(利润率低)为32条。
对于产品销售情况问题,根据上表采用ID3方法进行数据挖掘,具体计算如下:
信息熵的计算:
P(u1)=330/960,P(u2)=473/960,P(u3)=157/960
H(U)=(330/690)log2(690/330)+(473/960)log2(960/473+(157/960)log2 (960/157)=0.439
计算条件熵和互信息值见表2所示:
表2 条件熵和互信息取值表
故:I(销售利润率)的值最大。
ID3算法将选择互信息最大的特征“I(销售利润率)”作为树根,在960个例子中对“:销售利润率”的3个取值进行分支,3个分支对应3个子集,分别是:
F1={00008,00015,…… }共72项
F2={00001,00002,00004,00006 ,000011 , …… }共606项
F3={00003,00005,00007,00009 ,000010, …… }共282项
其中,F1子集中的例子均为高,而F2、 F3子集的例子中含有不同的类型,将递归调用建树算法。
递归建树
(1)对F2子集利用ID3算法,在子集中对各特征求互信息。
(2)对F3子集利用ID3算法,在子集中对各特征求互信息。
通过对上面含有960个记录的训练集进行互信息的计算,可得到如下决策树,见图1所示:
图1 ID3决策树
根据决策树可得出以下规则:
(1)决策树给出的第一个选择条件为销售利润率,这与经验常识相符,即利润率高的产品销售情况一定是好的,而利润率中等和低就要分情况而定。
(2)在利润率中等和低时,要看产品的销售形式。
(3)当利润率低,销售形式为抹帐、四大处室、低价结算时,此种产品销售情况为亏损。若销售形式为现金则要看产品属性,若为新产品则产品销售情况为一般,若为旧产品则产品销售情况为亏损。
(4)当利润率中等时,销售形式为现金则要看产品属性,若为新产品则产品销售情况为好,是旧产品则要看异议处理,若有异议则产品销售情况一般,如果无异议则产品销售情况好。
(5)当利润率中等时, 销售形式为抹帐, 销售所属为销售处,科技处,锻件,板材,则产品销售情况一般,是清欠则产品销售情况好。
(6)当利润率中等时, 销售形式为低价处理, 销售所属为销售处,科技处,锻件,板材,则产品销售情况亏损,是清欠则产品销售情况好。
(7)当利润率中等时, 销售形式为四大处室,看异议处理若有异议则产品销售情况亏损,如果无异议则产品销售情况一般。
由以上规则,我们可以预测出某种新产品在那些时候销售情况是好, 那些时候销售情况是一般, 那些时候销售情况是亏损。企业管理者在销售情况好的时候可加大生产、销售力度,并尽量减少亏损情况的出现。此种预测方法可以说直接与企业经济利益相联系。
3 结束语
总之,决策树方法为在以前大量数据基础上得出的科学判断规则,为决策者提供许多重要的、极有价值的信息或知识。企业决策者、管理者可免去许多以前用于讨论、分析产品销售情况的时间和精力,并有效的排除一些人为因素的干扰,在最短的时间内做出正确的分析和决定,从而产生不可估量的效益。
参考文献:
[1]高文,KDD:数据库中的知识发现[J].计算机世界,1998,37.
[2]朱国昱,数据仓库与企业信息门户[J].中国计算机世界, 2000,8.
[3]全国经济专业技术资格考试用书编写委员会.实商业经济专业知识与实物[M].北京:经济管理出版社2002,225-254.
本文中所涉及到的图表、注解、公式等内容请以PDF格式阅读原文。
关键词:数据挖掘;决策树;ID3
中图分类号:TP312文献标识码:A文章编号:1009-3044(2007)05-11198-01
1 基本定义
(1)数据挖掘
数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。
(2)决策树
决策树是数据挖掘常用技术,代表着决策集的树形结构。
(3)基于互信息的ID3方法
ID3的基本思想:在一实体世界中,每个实体可用多个特征来描述。每个特征限于在一个离散集中取互斥的值。每个实体在世界中属于不同的类别,将一些已知的示例放在一起便得到了一个训练集。由ID3算法得出一棵正确分类的训练集中每个实体的决策树。实际上,能正确分类训练集的决策树不止一棵。ID3算法能得得出结点最少的决策树。
(4)利用ID3算法进行数据挖掘
ID3算法是由Quinlan提出来的。它是一种根据属性集的取值选择实例的类别的一种算法。它的基本原理是:设E=F1×F2×…×Fn是n维有穷向量空间,其中Fj是有穷离散符号集,E中的元素e=
假设向量空间E中的正例集PE和反例NE集的大小分别为p,n,ID3基于如下2种假设:在向量空间E上的一棵正确决策树对任意例子的分类概率同E中正反例的概率一致。一棵决策树对一例子做出正确类别判断所需的信息量为:
如果以A属性作决策树的根,A具有V个值{V1,V2,…,Vv},它将E分成V个子集{E1,E2,…,Ev},假设Ei中含有Pi个正例和个反例,那么子集Ei所需要的期望信息是I(Pi,Ni),以属性A为根所需要的期望熵是:
以A为根的信息增益是: gain(A)=l(p,n)-E(A)
ID3选择gain(A)使最大即E (A)最小的属性作为根节点,对A*的不同取值对应的E的各子集Ei递归调用上述过程生成A*的子节点B1,B2,…,Bv。
2 ID3算法实例
在一实体世界中,每个实体用多个特征来描述。每个特征限于在一个离散集中取互斥的值。本例中实体产品销售情况,分类任务是得到关于产品销售情况见表1所示:
表1 产品销售情况的特征和取值表
例如:销售处343表示销售所属为销售处的记录有343条,其中销售情况好(利润率高)的为157条,一般(利润率中)为215条,亏损(利润率低)为32条。
对于产品销售情况问题,根据上表采用ID3方法进行数据挖掘,具体计算如下:
信息熵的计算:
P(u1)=330/960,P(u2)=473/960,P(u3)=157/960
H(U)=(330/690)log2(690/330)+(473/960)log2(960/473+(157/960)log2 (960/157)=0.439
计算条件熵和互信息值见表2所示:
表2 条件熵和互信息取值表
故:I(销售利润率)的值最大。
ID3算法将选择互信息最大的特征“I(销售利润率)”作为树根,在960个例子中对“:销售利润率”的3个取值进行分支,3个分支对应3个子集,分别是:
F1={00008,00015,…… }共72项
F2={00001,00002,00004,00006 ,000011 , …… }共606项
F3={00003,00005,00007,00009 ,000010, …… }共282项
其中,F1子集中的例子均为高,而F2、 F3子集的例子中含有不同的类型,将递归调用建树算法。
递归建树
(1)对F2子集利用ID3算法,在子集中对各特征求互信息。
(2)对F3子集利用ID3算法,在子集中对各特征求互信息。
通过对上面含有960个记录的训练集进行互信息的计算,可得到如下决策树,见图1所示:
图1 ID3决策树
根据决策树可得出以下规则:
(1)决策树给出的第一个选择条件为销售利润率,这与经验常识相符,即利润率高的产品销售情况一定是好的,而利润率中等和低就要分情况而定。
(2)在利润率中等和低时,要看产品的销售形式。
(3)当利润率低,销售形式为抹帐、四大处室、低价结算时,此种产品销售情况为亏损。若销售形式为现金则要看产品属性,若为新产品则产品销售情况为一般,若为旧产品则产品销售情况为亏损。
(4)当利润率中等时,销售形式为现金则要看产品属性,若为新产品则产品销售情况为好,是旧产品则要看异议处理,若有异议则产品销售情况一般,如果无异议则产品销售情况好。
(5)当利润率中等时, 销售形式为抹帐, 销售所属为销售处,科技处,锻件,板材,则产品销售情况一般,是清欠则产品销售情况好。
(6)当利润率中等时, 销售形式为低价处理, 销售所属为销售处,科技处,锻件,板材,则产品销售情况亏损,是清欠则产品销售情况好。
(7)当利润率中等时, 销售形式为四大处室,看异议处理若有异议则产品销售情况亏损,如果无异议则产品销售情况一般。
由以上规则,我们可以预测出某种新产品在那些时候销售情况是好, 那些时候销售情况是一般, 那些时候销售情况是亏损。企业管理者在销售情况好的时候可加大生产、销售力度,并尽量减少亏损情况的出现。此种预测方法可以说直接与企业经济利益相联系。
3 结束语
总之,决策树方法为在以前大量数据基础上得出的科学判断规则,为决策者提供许多重要的、极有价值的信息或知识。企业决策者、管理者可免去许多以前用于讨论、分析产品销售情况的时间和精力,并有效的排除一些人为因素的干扰,在最短的时间内做出正确的分析和决定,从而产生不可估量的效益。
参考文献:
[1]高文,KDD:数据库中的知识发现[J].计算机世界,1998,37.
[2]朱国昱,数据仓库与企业信息门户[J].中国计算机世界, 2000,8.
[3]全国经济专业技术资格考试用书编写委员会.实商业经济专业知识与实物[M].北京:经济管理出版社2002,225-254.
本文中所涉及到的图表、注解、公式等内容请以PDF格式阅读原文。