论文部分内容阅读
在贵州烟草项目中,包含着大量的卷烟销售数据,如何利用好这些数据,发挥数据的潜在价值,实现卷烟的精准营销成为烟草行业迫切需要解决的具有挑战性的问题。针对这个问题本文利用数据挖掘和Hadoop大数据技术来研究相应的解决方案。本文针对贵州烟草精准营销的具体需求,利用近五年的卷烟营销销售数据,重点选用Apriori和FP-Growth算法开展卷烟品牌关联规则挖掘,同时,研究Hadoop大数据技术对卷烟品牌关联规则挖掘算法的支持。本文完成的工作和成果如下:1)利用R工具进行卷烟品牌关联规则挖掘研究,包括需求分析、数据预处理、以及采用R脚本编程实现了卷烟品牌的频度计算和关联规则挖掘,发掘了若干实用性的关联规则,为卷烟品牌的销售提出了捆绑销售的策略和建设性意见。2)开展了 Hadoop大数据技术进行卷烟品牌关联规则挖掘的研究。同时开展了单机环境下和分布式环境下进行关联规则挖掘的实验。在单机环境下利用R工具进行了关联分析,而在分布式环境下利用Mahout在Hadoop集群环境下进行了分布式计算,进行了两者的性能对比实验,得到了当数据量达到一定程度后,分布式环境下程序运行性能明显优于单机环境下的性能的结论。3)完成了贵烟营销数据分析平台的设计和实现,在系统中集成了关联规则挖掘的工具,进行了卷烟品牌关联规则挖掘的应用,验证了论文方法的有效性和实用性。