基于隐式反馈数据的用户行为分析及购买预测

来源 :南京邮电大学 | 被引量 : 3次 | 上传用户:shanshan0000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着移动互联网的发展,电商平台进入了一个快速发展期,截至目前各电商平台已积累了海量的用户行为数据。从是否能直接反映用户喜好这一维度,对用户行为数据可以分为两类,一类是显式反馈数据,一类是隐式反馈数据。目前针对隐式反馈的研究较少,但是隐式反馈数据在电商平台上的占比最大,通过对隐式反馈用户行为数据的挖掘可以为电商实现更进一步的精准营销提供可能,同时对隐式反馈数据分析挖掘也是对显式反馈数据很好地补充,所以对于电商平台来说针对隐式反馈用户行为的分析挖掘十分重要。因此本文提出了基于数据可视化、特征工程和机器学习模型等一系列方法对电商隐式反馈数据进行处理,以便实现对用户的购买行为进行预测以及更好的为用户推送商品。本文首先梳理了有关隐式反馈、用户行为、特征工程及购买预测的相关研究文献。总结了众多文献的研究内容,分析这些文献在研究中存在的不足。然后进一步提出了本文研究框架和研究方法。本文以电商大规模隐式反馈数据为研究基础,将购买预测问题转化为机器学习二分类问题。首先对原始数据进行清洗整理,去掉刷单用户和爬虫用户等,并通过数据可视化的方式观察购买转化率在时间上的分布等规律。然后基于观察到的规律构建四大特征指标,其中针对隐式反馈数据中没法明显表示用户喜好的这一缺陷设计了用户平均加权选择倾向特征来解决这一问题,并取得了不错的效果,所有特征按照特征群划分为6个特征群,总计988个特征。随后使用随机森林算法展示特征重要性这一特点,对特征进行筛选并留下784维特征。最后使用Logit回归、CNN卷积神经网络和Inception网络对处理好的数据进行购买预测,其中CNN和Inception的训练是将784维的特征转化成28*28的灰度图进行训练。因为样本数据不均衡,所以实验中使用F1指标来评价预测效果。最终Logit回归的F1值为11.25、CNN的F1值为11.41、Inception的F1值为12.42。实验表明,基于Inception网络的两个主要设计思想:多尺度卷积抽取多维度特征和隐含层也可输出结果,本文设计的Inception网络在天池用户行为数据集上取得了不错的预测效果。本文以电商用户行为的隐式反馈数据为中心,通过观察用户行为、进行特征工程和设计模型,完成了对用户购买行为的预测。本文构造的用户平均加权倾向特征和Inception模型,可以提高最终预测的效果。为电商平台向用户更好的推送商品,提供了一定的参考价值。
其他文献
文物保存的好坏,不仅取决于文物材料质地,更取决于文物所处的环境,环境因素直接影响着文物的寿命.预防性保护文物的关键,就是努力使文物处于一个"稳定、洁净"的良好生存环境,
一、政治经济学和社会主义经济理论热点问题讨论(一)关于深化对劳动和劳动价值论的认识及收入分配问题中共中央"十五"计划建议提出:"在经济发展的同时,不断增加城乡居民收入,
建筑工程质量是与现代社会人们的生命财产安全息息相关的重要事项,在数不清的工程门上,我们都能看到相同的警示语,安全第一,质量为本。是的,对于建筑施工单位而言,质量既是生
随着林权制度改革的不断深入,林业发展迅速。与此同时,森林火灾的发生概率呈现增长的态势。频繁发生的森林火灾给森林资源造成重大损失,这不仅影响了林权改革的成果,也给林农的生
法国农业保险扶贫政策拥有完善的法律法规体系、立体的体系框架以及合理的经营策略。本文在简单介绍法国农业保险扶贫制度演变过程的基础之上对于该制度体系进行了详细阐述。
目的了解心理干预对接受手术的患儿亲属焦虑程度的影响,为心理护理提供科学依据。方法手术患儿亲属60例,随机分为两组,每组各30例。心理干预组由护士在术前进行心理干预,对照
目的探讨早期肠内营养与肠外营养对应激性溃疡(SU)患者C-反应蛋白(CRP)水平及医院感染率的影响。方法选取2014年5月-2016年4月医院收治的98例SU患者为研究对象,随机分为肠内
<正> 吉林省东部山区硅藻土资源极为丰富,永吉、桦甸、敦化、蛟河、珲春、海龙、靖宇、抚松、浑江和长白等市县均有硅藻土矿分布(表1)。长白马鞍山硅藻土矿规模大,矿石质地优
我国人多地少且耕地产能与人口空间分布不均,粮食供求关系存在区域性不平衡问题。基于耕地粮食生产能力与人口消耗的供需关系,制定保障区域粮食安全的供应平衡策略,对于我国
在完成新型城市化加速发展过程中,保障性住房是解决流动人口住房问题且主要由政府参与的重要举措。苏州是一个拥有大量流动人口的城市,在城市发展过程中流动人口的住房问题也