论文部分内容阅读
随着互联网发展,一系列基于互联网的销售平台应运而生。网络销售的模式使交易更加快捷,为用户提供了更多的选择,也为商家提供了一个销售的平台,同时也改变了我们获取数据的方式。相较以前,现在我们获取数据的速度更快、量级更大、价值密度更低、形式更复杂。所以要求我们能够具备处理大数据的能力,并且从中挖掘出有价值的信息。基于这一背景,本文通过产品的固有属性和用户的购买行为数据的处理和挖掘,预测未来产品销量以及分析出影响产品销量的主要因素。应用某旅行网站2014年1月到2015年11月旅行产品信息数据和产品销量与价格的真实数据作为训练数据,预测2015年12月到2017年1月各个旅行产品的月销量。首先,观察数据的缺失情况并且根据数据的分布情况选择合适的方法对缺失值进行插补,缺失程度较大的变量进行剔除处理。接下来构建模型的特征工程,对数据集中的变量进行处理,选择重要的变量以及符合业务场景的变量进入特征集,选取以下七个特征:产品的地理特征、日期特征、评分及点评特征、价格特征、节假日特征、月份特征、订单属性特征。然后,把特征集分别代入用XGBoost模型和GBDT模型并且对旅行产品的销量进行预测,同时获取在模型建构过程中重要变量的度量;把XGBoost模型和GBDT模型用线性加权法融合,再次对产品销量进行预测。XGBoost模型的预测值与真实值之间的均方误差更低,预测效果更好,且由于XGBoost模型的并行计算能力,大大提高了模型的预测速度尤其是在数据量较大的情况下。最后,基于模型的预测效果和变量重要性度量,结合实际情况对如何提高旅行产品销量提出了刺激已消费用户点评、提高用户产品评分等建议。