【摘 要】
:
如何从海量数据中快速、有效挖掘出用户感兴趣的信息或商品是推荐系统领域的研究范畴,随着大数据时代的到来,这一类需求更加强烈。尽管推荐系统在理论与应用上已经取得了一定
论文部分内容阅读
如何从海量数据中快速、有效挖掘出用户感兴趣的信息或商品是推荐系统领域的研究范畴,随着大数据时代的到来,这一类需求更加强烈。尽管推荐系统在理论与应用上已经取得了一定成果,然而传统推荐算法面对大数据处理需耗费大量时间,无法满足在线实时推荐的应用需求。Spark内存计算平台的出现能够为提高推荐算法运行效率与实时性提供技术支撑。本文旨在利用Spark平台对推荐算法进行优化与并行化实现,并且利用流计算框架实现一个能够满足离线与在线推荐相结合的推荐系统。基于Spark平台与相关的大数据技术,本文的研究内容如下:(1)协同过滤推荐算法的优化与并行化实现。针对基于用户的推荐方法迭代计算效率低的问题,利用Spark实现基于聚类的方法来加快算法的运行效率,针对ALS方法忽略相似度信息的缺陷,使用与KNN结合的KNN-ALS模型方法。同时为改善用户相似度计算时出现的量纲差异使用修正的相似度度量方法。(2)基于Spark的推荐系统实现,在大数据技术的基础上,利用Spark搭建离线与在线结合的推荐系统,其中离线推荐重点对数据仓库与推荐引擎设计,在线推荐则主要通过Kafka与Spark Streaming框架结合实现实时推荐设计。在电影数据集上的实验结果表明,离线推荐上,改进后的并行化推荐算法在相关评测指标上均通过了测试,另外,系统搭建的数据仓库在读写性能与存储空间上相比传统存储方式都具有非常大的优势;在线推荐上,通过Kafka与Spark Streaming的结合,完成了数据的实时加载与模型的更新,能够在动态数据环境下完成在线推荐。
其他文献
目的探究神经外科患者术后颅内感染病原菌分布和耐药性情况。方法选取200例在2016年1月-2019年8月该院神经外科收治的术后颅内感染患者,通过药敏试验和细菌培养仔细检测所有
目的:分析影响小儿头皮静脉穿刺成功率的因素,探讨相关改进措施。方法:对2015年4月-2016年4月我院儿科静脉输液患儿300例进行调查,了解影响小儿头皮静脉穿刺成功的因素,并制
越来越多和宏内核操作系统中使用的设备驱动程序相关的漏洞被发现,这些漏洞严重危害操作系统的安全性和可靠性.现有的解决方案无法既能为操作系统内核提供强有力的保护又能达
目的探究肝硬化门静脉高压患者免疫功能及血清C反应蛋白(CRP)、降钙素原(PCT)、前列腺素E(PGE)等因子变化情况。方法选择2014年2月至2019年3月我院收治的81例肝硬化门静脉高
义务教育阶段的择校现象是社会普遍关注的热点问题。文章运用经济人假设理论,对择校的需求方、择校的供给方、学校的主办方分别进行行为分析,从而透视出义务教育阶段择校的成因
目的探讨中药小分子单体化合物丹参酮ⅡA对人甲状腺乳头状癌细胞系K1细胞表皮生长因子(epidermal growth factor,EGF)及其受体(EGF receptor,EGFR)表达的影响。方法不同剂量丹参酮ⅡA分别干预体外培养的K1细胞,采用CCK8法检测丹参酮ⅡA对K1细胞增殖的抑制作用;流式细胞术检测丹参酮ⅡA对K1细胞凋亡以及细胞周期时相的影响;Western blotting法检
在党的群众路线教育实践活动中,襄阳市委、市政府以“假如我是服务对象”大讨论活动为抓手,始终坚持倾听群众呼声,体验群众生活,致力民生建设,通过广泛收集民意,将“三无”小区环境
本文着重分析国有企业的定义与性质,结合国情进行简要分析社会目标(福利性目标)和利润目标(盈利性目标)的辩证关系,在此基础上,针对不同性质分类的国有企业制定不同的经营目标或