论文部分内容阅读
随着移动互联网的发展,电商平台进入了一个快速发展期,截至目前各电商平台已积累了海量的用户行为数据。从是否能直接反映用户喜好这一维度,对用户行为数据可以分为两类,一类是显式反馈数据,一类是隐式反馈数据。目前针对隐式反馈的研究较少,但是隐式反馈数据在电商平台上的占比最大,通过对隐式反馈用户行为数据的挖掘可以为电商实现更进一步的精准营销提供可能,同时对隐式反馈数据分析挖掘也是对显式反馈数据很好地补充,所以对于电商平台来说针对隐式反馈用户行为的分析挖掘十分重要。因此本文提出了基于数据可视化、特征工程和机器学习模型等一系列方法对电商隐式反馈数据进行处理,以便实现对用户的购买行为进行预测以及更好的为用户推送商品。本文首先梳理了有关隐式反馈、用户行为、特征工程及购买预测的相关研究文献。总结了众多文献的研究内容,分析这些文献在研究中存在的不足。然后进一步提出了本文研究框架和研究方法。本文以电商大规模隐式反馈数据为研究基础,将购买预测问题转化为机器学习二分类问题。首先对原始数据进行清洗整理,去掉刷单用户和爬虫用户等,并通过数据可视化的方式观察购买转化率在时间上的分布等规律。然后基于观察到的规律构建四大特征指标,其中针对隐式反馈数据中没法明显表示用户喜好的这一缺陷设计了用户平均加权选择倾向特征来解决这一问题,并取得了不错的效果,所有特征按照特征群划分为6个特征群,总计988个特征。随后使用随机森林算法展示特征重要性这一特点,对特征进行筛选并留下784维特征。最后使用Logit回归、CNN卷积神经网络和Inception网络对处理好的数据进行购买预测,其中CNN和Inception的训练是将784维的特征转化成28*28的灰度图进行训练。因为样本数据不均衡,所以实验中使用F1指标来评价预测效果。最终Logit回归的F1值为11.25、CNN的F1值为11.41、Inception的F1值为12.42。实验表明,基于Inception网络的两个主要设计思想:多尺度卷积抽取多维度特征和隐含层也可输出结果,本文设计的Inception网络在天池用户行为数据集上取得了不错的预测效果。本文以电商用户行为的隐式反馈数据为中心,通过观察用户行为、进行特征工程和设计模型,完成了对用户购买行为的预测。本文构造的用户平均加权倾向特征和Inception模型,可以提高最终预测的效果。为电商平台向用户更好的推送商品,提供了一定的参考价值。