协同过滤算法及其并行化研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:xwy_pk
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在电子商务的应用中,协同过滤算法是一种很实用也很简便的方法。通过一系列具有相同的体验或者偏好的用户群体的经历来为特定用户进行推荐。每一个个体对于推荐的结果给予一定的回应和评判,这些反馈结果同样也被拿来用到对于其他用户的咨询筛选过程中。然而,面对越来越大的数据集,传统的方法往往很难奏效。大规模的数据需要大量的内存以及很高的运行时间,传统的方法会因此遇到效率上瓶颈。因此,很需要更高效更快速的方法来使其更好的付诸的实际应用,算法的并行化就是一个很好的手段。本文通过基于Hadoop的MapReduce方式来实现协同过滤算法的并行化。针对基于内存,基于聚类以及基于潜在语义的协同过滤算法的各自特点,对其经典实现和应用作出并行化的处理。对于基于项目的协同过滤算法,本文以两大类四种方式对其进行实现,并阐述了每一种实现方式所出现的问题以及相应的改进方式。基于MinHash的协同过滤算法,是基于聚类的协同过滤算法的典型实现。本文以其并行化的方式为例,阐述了为其他聚类算法的并行化的实现模板。基于潜在语义的并行化算法,主要针对其核心步骤的EM过程进行并行化。通过E对应Map,M对应Reduce以及EM作为一个整体在Mapper端进行并行化这两种方式,对其进行了并行化实现,并各自分析了相关的优劣以及原因所在。通过以上的研究,我们总结分析了协同过滤算法其并行化各自的方式,特点以及优劣。在实际应用中,可以根据数据,效率以及准确率的需求,来灵活的作出对应的选择。
其他文献
该文的主要内容就是研究近年来国际上比较热门的一个研究方向--网络存储.第一章介绿了网络存储的起因以及当前国际上的发展方向和研究意义;第二章主要阐述了目前比较流行的一
随着技术的进步,计算机越来越广泛的应用于工业、农业、科研及人民生活的各个领域.数据库技术应用是计算机应用的重要组成部分.为了满足实际应用的需要,迫切要求充实数据库理
在地质领域,科学可视化技术具有十分重要的地位.借助于可视化图形,研究人员可以对地质变量的分布和变化趋势产生直观的理解,这对于矿藏的勘探、开发和后续处理工作有着重要的
IP电话的核心是IP网关,该课题的任务就是设计IP网关.它处于PSTN网和数据网之间,成为两种网络间的桥梁.研究人员使用No.1信令与程序交换机通信,在概论之后,论文详细介绍了信令
该文研究如何完整表示设计模式并将它应用于软件设计过程,从而发挥它对设计的潜力,使设计过程越来越确定、越来越成熟.该文首先分析了设计模式本质,指出它是一个面向软件设计
论文就微行星齿轮减速器的选型进行了分析,采用了微3K-2型行星齿轮减速器;对微行星齿轮减速器的配齿与建模进行了设计;对微齿轮的建模方法进行了讨论,提出了一种较好的、符合
该文介绍了智能卡的软硬件知识,主要是智能卡的内部结构,文件组织及一些关键操作.针对智能卡在信息存储、信息保密和信息认证方面的特性,突出了智能卡在现实世界信息安全和信
该文围绕着大规模散乱数据可视化中的问题,分别用层次B-样条曲面和多尺度分析技术,对大规模散乱数据进行表示.作者在该文中提出的自适应层次B-样条曲面逼近是针对在实际应用
该文以数据预处理阶段中属性子集的选择问题、属性约简问题和连续属性离散化方面 为主要研究内容.在属性子集的选择上,作者提出利用信息熵作为识别相关属性的度量标准.在属性
鉴于微博媒体方式的流行,越来越多的用户使用微博进行社交交互,有必要在呼叫中心里集成微博。呼叫中心的客户大都是政企单位,这些单位使用呼叫中心系统对外提供业务服务,承载