论文部分内容阅读
[摘 要]本文采用聚类算法对ATM机上的日取用数量进行聚类,之后把每日的日取用数量替换成聚类类标号,然后再通过EVIEWS软件,对这些包含时间属性的聚类类标号进行回归,生成回归方程式,用来预测未来的日货币存放量。
[关键词]聚类 EVIEWS 回归分析 预测
一、引言
聚类分析是一种重要的人类活动。早在孩提世代,通过不断地改进下意识的聚类模式来学习如何区分猫和狗,或动物和植物。聚类分析已经广泛的应用于许多应用领域,包括市场研究、模式识别、数据分析和图像处理。在电子商务中,聚类分析能够帮助市场分析人员根据购买模式从顾客库中发现不同的顾客群。在生物学中,聚类能用来推到植物和动物的分类,根据相似功能对基因进行分类,获得对种群中固有结构的认识。聚类可以定义如下:基于数据的相似性把数据集合划分成组。相对于数据分类而言,聚类是观察式学习,他不需要事先指定,而是根据自己的观察得出组信息。
各个银行网点每日需要的货币数量是一个不确定的值,既不能在银行存放过多货币,也不能让客户来银行取款时无钱可取,ATM机器也是一样。在无钱可取时,银行必须得雇用保安公司或者警察押送货币,如果某一天的货币数量不够,那么因为押送而多支付给保安公司或警察的钱就会增加,对于银行来说,这是一笔很大的负担。要非常准确的预测下一天的货币使用量,这个将会是一个很困难的问题,但是,如果要预测下一天的货币使用范围,这个还是有一定的可行性的。
本文就是首先对一个ATM机器上的日货币使用量进行聚类,把日货币量划分为几个类别,例如:60万到70万之间为一类,70万到80万之间为一类。在聚类完成以后,把每日的货币使用量采用类标号来代替,然后通过EVIEWS进行回归分析,来进行预测下一天的货币使用范围。
二、聚类分析
本文是通过K-MEANS来进行聚类。该算法如下图所示:
当我们把聚类数量设置为10时,簇中心为下表所示。
得到以上聚类结果后,参考了银行专业人士的意见,每次运钞应该是一个整的单位,不会是出现小数,故在这里以50万作为基准,由此可以把聚类结果分为50万以下,50到100万,100万到150万,150万到200万,200万到300万,300万以上。
三、回归分析
在分别用类标号代替日需货币量以后,我们通过EVIEWS进行回归分析。拿最新的数据作为预测数据,实验结果显示,准确率可以达到70%以上。
四、结论
在对ATM机的日货币量采用聚类做预处理以后,再通过EVIEWS进行回归分析以后,发现预测效果达到了70%(目前正在实施的预测方法的准确率仅为50%),说明该预测方法有可行性,在一定程度上减少了因为预测的不准确导致产生的费用。
因为目前只有一个ATM机器的数据,该算法的有效性还应根据多个ATM机器上进行反复测试,在证明算法有效以后,真正拿去实施应用。但这个预测的方法可以供参考,也可以采用这种方法预测其他数据。
参考文献:
[1]辛爱莉:聚类算法在电子商务客户细分中的应用[J].商场现代化,2008.02 p164
[2]葛继科:数据挖掘技术在个人信用评估模型中的应用[J].计算机技术与发展,2006.12pp172~174 p177
[3]JiaWeiHan范 明 孟晓峰:数据挖掘概念与技术[M].机械工业出版社,2006
注:本文中所涉及到的图表、注解、公式等内容请以PDF格式阅读原文
[关键词]聚类 EVIEWS 回归分析 预测
一、引言
聚类分析是一种重要的人类活动。早在孩提世代,通过不断地改进下意识的聚类模式来学习如何区分猫和狗,或动物和植物。聚类分析已经广泛的应用于许多应用领域,包括市场研究、模式识别、数据分析和图像处理。在电子商务中,聚类分析能够帮助市场分析人员根据购买模式从顾客库中发现不同的顾客群。在生物学中,聚类能用来推到植物和动物的分类,根据相似功能对基因进行分类,获得对种群中固有结构的认识。聚类可以定义如下:基于数据的相似性把数据集合划分成组。相对于数据分类而言,聚类是观察式学习,他不需要事先指定,而是根据自己的观察得出组信息。
各个银行网点每日需要的货币数量是一个不确定的值,既不能在银行存放过多货币,也不能让客户来银行取款时无钱可取,ATM机器也是一样。在无钱可取时,银行必须得雇用保安公司或者警察押送货币,如果某一天的货币数量不够,那么因为押送而多支付给保安公司或警察的钱就会增加,对于银行来说,这是一笔很大的负担。要非常准确的预测下一天的货币使用量,这个将会是一个很困难的问题,但是,如果要预测下一天的货币使用范围,这个还是有一定的可行性的。
本文就是首先对一个ATM机器上的日货币使用量进行聚类,把日货币量划分为几个类别,例如:60万到70万之间为一类,70万到80万之间为一类。在聚类完成以后,把每日的货币使用量采用类标号来代替,然后通过EVIEWS进行回归分析,来进行预测下一天的货币使用范围。
二、聚类分析
本文是通过K-MEANS来进行聚类。该算法如下图所示:
当我们把聚类数量设置为10时,簇中心为下表所示。
得到以上聚类结果后,参考了银行专业人士的意见,每次运钞应该是一个整的单位,不会是出现小数,故在这里以50万作为基准,由此可以把聚类结果分为50万以下,50到100万,100万到150万,150万到200万,200万到300万,300万以上。
三、回归分析
在分别用类标号代替日需货币量以后,我们通过EVIEWS进行回归分析。拿最新的数据作为预测数据,实验结果显示,准确率可以达到70%以上。
四、结论
在对ATM机的日货币量采用聚类做预处理以后,再通过EVIEWS进行回归分析以后,发现预测效果达到了70%(目前正在实施的预测方法的准确率仅为50%),说明该预测方法有可行性,在一定程度上减少了因为预测的不准确导致产生的费用。
因为目前只有一个ATM机器的数据,该算法的有效性还应根据多个ATM机器上进行反复测试,在证明算法有效以后,真正拿去实施应用。但这个预测的方法可以供参考,也可以采用这种方法预测其他数据。
参考文献:
[1]辛爱莉:聚类算法在电子商务客户细分中的应用[J].商场现代化,2008.02 p164
[2]葛继科:数据挖掘技术在个人信用评估模型中的应用[J].计算机技术与发展,2006.12pp172~174 p177
[3]JiaWeiHan范 明 孟晓峰:数据挖掘概念与技术[M].机械工业出版社,2006
注:本文中所涉及到的图表、注解、公式等内容请以PDF格式阅读原文