论文部分内容阅读
在“互联网+”的大背景下,大型制造企业通过PC端、移动端和线下等多渠道拓展业务所产生的数据量已从TB级别达到了 PB级别,业务类型和制造数据的繁荣为制造企业经营决策带来新的机遇的同时,也对传统的数据挖掘方法提出了新的挑战。面对全域市场范围内800多万客户的订单数据和销售数据所造成的数据空间冗余和构成信息复杂的多源异构问题,需要研究如何有效整合大量的、不统一的异构数据源,并解决产品投放过程中社会库存积压大和产品失衡发展的问题,为新形式下产品的精准投放提供决策依据。本文针对制造企业在产品投放经营过程中因多源异构的订销数据和业务流程映射关系不清晰所造成的经营决策不准确的问题,围绕多源异构数据的采集、处理和融合、产品投放过程中的销售预测和试点客户推荐、产品投放策略模型等数据挖掘中的关键问题展开研究,主要工作和贡献如下:(1)本文构建了多源异构环境下客户信息采集处理与基于用户偏好融合方法。通过各区域巡点专员经线下走访、采集、整合后上报的方式和互联网请求的方式完成数据采集工作,并导入到分布式多源异构数据库中。针对多源异构数据表述不统一、字段多冗余和数值多指标等问题,提出通过XML技术和建立数据属性标准库消除数据维度不统一,并利用排序法检测去除相似冗余数据的问题。同时提出一种基于OWA算子和用户偏好的数据融合模型,以弱化数据信息在结构上的模糊性和语义上的差异性,提高用户决策可靠性。(2)针对产品投放过程中投放数量过多导致社会库存积压的问题,本文提出了用融合多源异构数据的销售预测算法对区域投放量进行预测。在现有的市场细分的研究基础上结合商圈辅助因子,将客户订单数据投影到各个商圈,并通过加入客户销售能力及商圈区域消费特点等因素进行建模来提高预测的准确率。利用投影到各个商圈的客户订单数据,提出用产品转移矩阵描述各个商圈对销售的影响程度。在此基础上,通过灰色关联分析方法对影响销售的特征数据进行降维后,再利用目标函数中加入正则化项的XGBoost算法降低预测模型的复杂度,对未来时间段的商圈市场进行销售预测。实验结果表明改进后的算法与其他算法相比,能够有效解决预测稳定性差、准确度低的问题。(3)针对产品投放过程中选点区域过大导致产品失衡发展的问题,本文提出了用融合多源异构数据的客户推荐算法对多区域进行试点推荐。对全国范围内的客户进行全方位价值评估,然后利用子空间分解的方法对各个区域内产品的购买情况进行分析,结合客户价值结果与产品购买情况结果构建全域用户项目评分矩阵,通过计算耦合对象相似度推荐最佳目标客户作为产品投放试点。实验结果表明该算法与其他算法相比,能有效缓解推荐系统冷启动问题,且对推荐算法健壮性和推荐准确率均有不同程度的改善。(4)针对投放数量过多和选点区域过大所造成未精准投放的问题,本文提出了一种结合区域销售预测和试点客户推荐算法的精准投放模型。针对客户个体特征提出了多因素加权评估的方法对初始投放试点客户进行筛选,并根据不同商圈区域内产品的销售趋势利用Logitic回归模型从多维度、多指标角度确定最终的投放试点,基于此建立了产品投放策略模型。最后在浙江省选取4个试点城市进行产品投放试验结果表明,采用本文提出的投放策略后的产品订购率和销售趋势均优于制造企业原有的投放策略,在投放实践中市场份额和投放收益分别增加了 13.5%和26.3%。