面向不平衡与稀疏数据的推荐算法研究

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:qijich
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息产业飞速发展,人们网上购物越来越多,信息过载问题随之产生,尤其是电商领域。推荐系统产生不仅可以提高用户购物体验,同时能够增加商家收益,达到双赢目的。针对用户基本数据中性别缺失严重并且带有性别标签的样本存在类别不平衡、评论等级数据稀疏以及相似性计算量过大等问题,本文对电商购物平台的用户行为数据进行分析,提出一种面向不平衡与稀疏数据的商品推荐模型。本文主要工作内容如下:1.针对电商平台用户基本数据中性别缺失严重、带有性别标签的样本存在类别不平衡等问题,本文提出一种SMOTE_RF的性别预测方法。该方法首先利用SMOTE算法处理性别标签样本不平衡的问题,得到性别标签平衡的数据;然后利用随机森林模型进行训练;最后利用训练好的模型对缺失性别标签的样本进行预测。通过采用不同的模型分别对原始数据、随机过采样均衡化处理的数据、SMOTE采样均衡化处理的数据进行实验对比,结果分析表明经过SMOTE采样后利用随机森林模型进行性别预测的F1值最高,说明本文提出方法的有效性。2.针对电商平台中用户-商品评论等级数据稀疏性的问题,本文提出一种动态交叉填充DCF方法。该方法首先将用户基本信息与点击行为进行关联,通过关联后的数据计算用户相似性,利用商品信息数据计算商品相似性;然后,每次将二者中相似性最大的添加到集合中并降序排序,依次按照集合中大于设定阈值的相似性进行动态交叉填充;最后,基于上步填充的数据重复上述过程进行动态交叉填充,缓解数据的稀疏程度,为基于商品的推荐模型构建提供良好的实验数据。3.针对推荐过程中相似性计算量过大的问题,本文提出利用一种改进的P_KMeans聚类算法来减小相似性计算量,提高推荐效率。基于此,构建本文的推荐模型。首先利用改进的P_KMeans算法对填充后用户-商品评论等级数据按照商品进行聚类;然后只对同一簇中样本进行相似性计算;最后结合性别因素,将与该商品的相似度大于设定阈值的商品进行推荐。实验结果进一步表明本文所提面向不平衡与稀疏数据的推荐模型效率以及准确度更高。
其他文献
2013年全国人大常委会对《公司法》进行了第三次修正,全面确立了公司设立的资本认缴制,对公司资本制度的规定作出了根本性的改变。资本认缴制的确立,是我国注册资本制度的颠
在刚刚落幕的2011年Print China印刷展上,海德堡公司久负盛名的印通工作流程又推出了令人眼前一亮的"时尚新宠"——印通掌上通。海德堡的这个"宝贝"就展出在海德堡展区中心位置时
介绍一例DZL4.2-0.7/95/70-AⅡ热水锅炉爆管的事故原因和处理方法。
“受众”这个概念在英语中叫做audience.含义是“在传播的过程中的另一端的读者、听众与观众的总称”。受众这个概念,往往含有被动的意思,实际上.受众概念是与大众概念相伴而生的
热水锅炉正确的启动、停运操作程序,对采暖网络安全可靠、经济运行及提高热水锅炉使用寿命。都有极大的关系。热水锅炉正确的启动、停运操作程序,在《热水锅炉安全技术监察规程
传统的协同过滤推荐算法通过分析用户的行为数据,挖掘用户的行为模式,对用户的兴趣进行建模,根据用户的兴趣偏好为目标用户推荐可能喜欢的物品,引导用户从大量选项中发现他们可能感兴趣的产品或服务。然而在计算项目之间相似度时只考虑历史项目的评分,而忽略了历史项目偏好对其的影响,以致于推荐精度不够理想,缺少个性化服务,推荐的可解释性较差。针对上述问题,提出了一种结合注意力机制和深度学习的电影推荐算法。考虑到传
介绍了华中理工大学和武昌锅炉容器厂共同研制的10t/h和35t/h循环流化床锅炉的设计特点和测试数据,对循环流化床锅炉当前存在的几个问题及其发展方向提出了看法和改进措施。
杂草对观赏性草坪的生长带来很大的影响,并且需要及时有效的控制才有利于草坪的健康和美观。在现有技术中,大多数杂草识别技术的实际应用仍存在很多问题,如传统机器学习算法适用样本量较小情况、视觉识别系统精度不高,尚未出现过深度学习网络在杂草方面的应用等。而近几年深度学习在目标检测识别领域中,特别是在训练速度和精确度上都取得突破性进展。在研究开发更好的目标检测系统方面,大多数改进方法其主要内容都是使用更深的
工作倦怠是现代职场中十分常见的现象,早在工作倦怠这个概念提出之前,员工在工作受到压力等因素影响而表现出消极怠工、工作态度差、职业忠诚度不高等负面行为,使企业蒙受因
随着我国经济的不断发展,不干胶标签越来越多的应用于产品包装领域。我国不干胶标签加工以凸版印刷和柔版印刷方式为主。主要采用卷到卷或者卷到单张的加工方式,由于不同标签