基于快速矩阵分解的分布式协同过滤推荐算法研究

来源 :湖南大学 | 被引量 : 0次 | 上传用户:lizhicong521
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的飞速发展,互联网上的数据正在以前所未有的速度快速累积,海量数据会导致严重信息过载问题,个性化推荐是解决该问题的有效途径之一。在大数据场景下,推荐系统通常需要处理大规模高维稀疏数据。在各种推荐算法中,基于矩阵分解的协同过滤算法在处理这类数据时具备较高精度与良好的扩展性,因而被广泛研究与使用。但将矩阵分解技术应用于大规模隐式反馈数据时,会出现以下三个问题:首先,隐式反馈推荐中内在缺乏负反馈信息,直接基于已有隐式数据进行模型构建无法有效反应用户偏好信息。其次,由于需要从缺失数据中获取负反馈信息,而缺失数据通常比已有数据多几个数量级,这会极大增加优化算法时间复杂度。最后,有限的单机计算资源会极大限制大规模推荐数据的处理效率。为了解决上述问题,本文深入研究了基于矩阵分解的分布式协同过滤算法,并提出了相应改进算法,具体如下:
  (1)为了解决隐式反馈推荐中单类问题以及模型训练效率低的问题,本文提出了一种基于用户活跃度和项目流行度的权重矩阵分解(user-activity and item-popularity weighted matrix factorization,UIWMF)推荐算法。UIWMF算法采用了一种基于用户活跃度和项目流行度的缺失数据权重策略,相对于传统的一致缺失数据权重策略,能够更加有效从缺失数据中获取负反馈信息,从而获得更高的推荐精度。此外,为了提高UIWMF的模型训练效率,本文提出了一种基于循环坐标下降的快速矩阵分解优化算法,通过巧妙地设计缓存矩阵避免了大量重复计算,从而有效提升了算法的训练效率。
  (2)为了打破传统单机的资源限制,本文基于Spark提出了一种高效的分布式UIWMF(distributed UIWMF,DUIWMF)算法。DUIWMF采用一种基于出入块的分布式缓存策略,能有效避免传统广播通信策略中需要传输无用和重复特征向量的问题,从而能显著降低通信开销,提升模型训练效率。
  本文在阿里云E-MapReduce上基于三个公共推荐数据进行了全面的实验。实验分为两部分,第一部分对UIWMF算法有效性进行验证,通过与多个基准的矩阵分解隐式反馈算法进行对比分析,实验结果表明了UIWMF算法在推荐精度上的优势。第二部分将DUIWMF算法与两个基准的分布式推荐算法进行对比分析,验证了DUIWMF算法的高效性,此外,还通过大量的实验验证了DUIWMF的可扩展性。
其他文献
摘 要:以皖南山区某工程滑坡为研究对象,结合地质勘察成果,从地形地貌、地层岩性、地质构造、水文地质条件及工程施工等方面分析了滑坡的成因.基于传递系数法分别计算原地面、开挖后边坡在天然状态和饱水状态下的稳定性系数.结果表明:原地面自然边坡基本稳定;工程施工后,边坡天然状态下稳定系数Fs为1.164,基本稳定;遇暴雨或连续阴雨的饱水工况下,抗滑总力下降约6.3%,下滑总力增加约9.2%,稳定性系数Fs
期刊
高光谱图像(HSI)是由几十至几百个连续的波段信息组成,具有光谱分辨率高、纹理信息丰富等优点。其图谱合一的特性,为深度挖掘地物信息提供了有利条件,被广泛应用于资源勘探、城市规划、军事监测等不同领域。然而,在高光谱图像捕获和传输过程中,受仪器故障与大气环境等因素的干扰,导致高光谱图像被各种噪声污染,限制了后续的分析与应用性能。因此,如何有效地恢复高光谱图像是遥感图像处理领域的一个重点研究方向。高光谱
长链非编码RNA(Longnon-codingRNA,简称lncRNA)是一种拥有超过200个核苷酸并且不编码蛋白的RNA。当前lncRNA-疾病关联预测模型的局限性普遍在于:(1)数据集稀疏问题:已知lncRNA-疾病关联数据很少引起数据的稀疏问题;(2)预测精确度问题:受到已知的lncRNA-疾病的关联数据较少等问题的约束,许多预测模型的预测精确度不高;(3)孤立lncRNA相关的疾病的预测问题;(4)孤立疾病相关的lncRNA的预测问题;(5)负样本问题。
  鉴于logistic矩阵分解非常
摘 要:普通橡胶支座的健康监控通常采用定期人工检测法,需要大量人力物力,无法实现支座维护的耐久性.因此,有必要设计一种智能化支座实现对桥梁支座工作状态实时监测.通过在普通板式橡胶支座的基础上布设智能传感器,设计出一种用于监测桥梁结构工作状况的新型智能板式橡胶支座.为确认智能传感器对支座工作状态的評定作用的实效性,采用智能支座模拟实际受力状态,开展常态下轴压试验,检测支座测试钢板应力、应变数据及上顶
期刊
在大数据时代,利用车辆移动数据研究居民出行行为,有益于政府和交通管理部门制定科学合理的城市管理策略。目前大多数研究工作都集中于公共交通领域,对私家车数据的研究相对较少。本文以真实的私家车数据为基础,研究城市中私家车用户居民群体的出行行为,主要工作如下:
  为了从原始私家车数据集中获取到满足本项研究的基础数据,提出私家车数据集预处理框架对收集到的原始私家车数据集进行预处理。首先,提出以连续的几个冗余点均值替换所有冗余点的方法清洗GPS轨迹数据中的冗余数据;然后针对GPS轨迹中存在的噪声数据,通过启发
多目标优化问题在现实工程应用中非常常见,是主要研究领域之一。多目标进化算法通过维护种群,在决策空间内不断搜索以获得一组近似的Pareto最优解集,是一种处理多目标优化问题的较好的方法。本文通过对多目标优化相关理论及现有的多目标进化算法进行梳理和分析,提出了一种基于分解的Pareto前沿网格多目标进化算法,以及一种基于变量贡献目标的多种群多目标进化算法。主要研究工作如下:
  (1)基于网格的分解方法通过建立网格系统可以很好的反映解的邻居结构,比已有的分解方法表现更好,尤其是Pareto前沿不规则的多
Hashtag的使用为网络数据的组织和检索带来了极大的便利,可以缓解数据急速增长导致的“信息过载”问题,但是网络上大部分用户都没有使用Hashtag的习惯,使得Hashtag的优越性无法得到充分体现。因此,实现Hashtag的自动化推荐具有重要研究意义。现有Hashtag推荐的研究主要集中在纯文本或文本结合图片的微博领域,针对微视频的Hashtag推荐却还未获得足够关注。近年来,微视频社交逐渐成为
由于医学影像数量的激增,医生精力的有限,甚至于有些影像的观察需要依赖于具有完备领域知识和丰富经验的医生,从而有可能会出现医生因经验不足或者疲劳而产生诊断错误的情况。本文主要就医学影像的自动分割问题进行研究。无需人为干预,通过计算机对输入图像的处理,获得输入图像的分割结果。传统图像分割方法的分割结果容易受到噪声的影响。而随着深度学习技术的发展,越来越多的深度学习方法被运用到计算机视觉的各类任务之上。
摘 要:无人机地面站作为无人机控制系统中至关重要的一部分,其主要功能为无人机飞行控制以及任务管理.设计专用无人机地面站,提高对于任务的适应度,是推广应用无人机的一大有效举措.本文基于实际需求,设计及实现了用于桥梁病害检测的专用无人机地面站,该地面站具备无人机飞行监控、快捷控制、飞行任务规划、飞行路径以及航迹显示等功能,其基于Visual Studio 2019软件开发,主框架采用C#编写,电子地图
期刊
人工智能技术近年来迅猛发展,可以轻松提取出自然数据中的特征和内在联系,非常擅长拟合高度非线性关系。因此,人工智能技术被广泛地应用于图像检测、语音识别、和自然语言处理任务中,并表现出了优异的性能。随着这些实际应用的推广使用,人工智能技术的安全性越来越引起重视。特别是对抗样本的发现使这些人工智能技术的应用面临巨大的威胁。通过研究对抗样本的生成方法,可以探索对抗样本存在的本质,更深层次的思考人工智能技术。研究对抗样本的产生和防御,开展人工智能技术的攻防战可以不断提升人工智能技术,进一步保障人工智能技术在实际应用