【摘 要】
:
协同过滤算法是在推荐系统中有着广泛应用的算法。但是随着数据量的爆炸式增长,协同过滤算法所需的计算量也随之增长。针对传统的单机集中式计算已无法满足推荐系统的实时性
【基金项目】
:
国家自然科学基金项目(61302158,61571238)
论文部分内容阅读
协同过滤算法是在推荐系统中有着广泛应用的算法。但是随着数据量的爆炸式增长,协同过滤算法所需的计算量也随之增长。针对传统的单机集中式计算已无法满足推荐系统的实时性和扩展性要求的问题,基于主流的大数据平台Spark在迭代计算以及内存计算方面的优势,设计了基于项目的协同过滤算法在Spark上的并行化方案。该方案利用RDD并行化计算的特点,通过合理设计RDD算子来实现对物品间相似度计算过程和评分计算过程的并行化,同时采用了RDD的缓存机制以及Spark中的广播变量来对一些重要的计算资源进行缓存与分发,从而提高计算速度。用Movie Lens公开数据集对基于Spark平台的并行化Item-Based协同过滤算法的性能进行测试,结果表明该并行化协同过滤算法在准确性以及时效性方面均有较好的表现。
其他文献
第一部分THSG的含量测定及初步探讨其时效及量效关系背景和目的:何首乌(Polygonum multiflorum Thunb, PM)作为传统的中草药,用于滋补及抗衰老已上千年,同样也用于润肠通便、
柠条塔矿属易自燃矿井,矿区内曾发生地面煤仓、周边小窑采空区、煤层露头自燃现象。该矿区地表漏风情况严重,容易引起采空区浮煤自燃,加强对该矿区自燃规律及特征温度的深入
用天然存在且吸附能力较强的果胶包覆具有磁性的四氧化三铁纳米颗粒制备一种吸附剂-Fe3O4果胶磁性微球.通过红外光谱、扫描电镜对样品进行表征,并考察吸附时间、Cu2+的质量浓
以我国2009-2016年沪深上市公司数据为样本,探究了股价崩盘风险、信息环境对企业现金调整的影响。研究发现:股价崩盘风险越大,企业现金调整速度越快,且这种正相关关系对于分
在庄严的人民大会堂里,习近平总书记向大家频频挥手致意,中央政治局常委全体出席,王沪宁同志代表党中央致词充满关怀、嘱托与期待;在分组讨论会的会场里,大家激情四溢,欢聚、碰撞、
以C球为模板,通过水热反应制备中空结构TiO2;并通过液相渗入法与单质S复合,制备出锂硫电池正极材料TiO2/S复合物。利用透射电子显微镜(TEM)、X-射线衍射(XRD)、热重分析(TG)测试手
介绍了 Ti O2 光催化材料的催化氧化和表面超亲水性的原理 ,并着重探讨了其在表面超亲水性方面的应用 ,同时还分析了光催化剂应用的关键技术。