基于Hadoop和Mahout的推荐系统研究和实现

来源 :华南师范大学 | 被引量 : 0次 | 上传用户:lostlovestef
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着移动互联网的高速发展,人们能够非常方便的获取大量的信息,享受着信息丰富的便利。然而,由于个人处理信息的能力有限,一个人很难在有限的时间内找到对自己有价值的信息,所以人们要面对信息过载的困扰。传统互联网公司实现了两种解决方法,第一种解决方法是分类信息目录,如雅虎和赶集网;另一种解决方法是搜索引擎,如谷歌和百度。这两种解决方法的相同之处是用户非常明确自己的需求,但是当用户对需求不明确时,上述两种解决方式就无能为力了。因此推荐系统诞生了,用户不需要主动提供任何输入,它就能主动向用户推荐其偏好的物品。这是因为推荐系统是通过在后台的日志记录进行建模分析出用户行为数据,最后把分析的结果推荐给用户。  本论文用Mahout以及Hadoop技术为背景,研究了推荐系统和分布式并行计算,并对推荐系统常见的传统的两种协同过滤推荐算法以及其所面临的问题(如冷启动、数据稀疏性等)进行了较深入的研究。在此基础上,本文结合项目实践中所应用到的分类算法,提出了基于朴素贝叶斯分类的协同过滤推荐算法。该算法针对数据稀疏性问题采用朴素贝叶斯方法对没有评分的数据进行预测,通过对未评分数据进行预测,缓解了数据稀疏性,从而在一定程度上提高了最近邻居项目搜索的准确度,缓解了推荐系统面临的主要挑战。  同时应用Hadoop和Mahout开源框架,分别实现了传统的基于用户的协同过滤推荐算法和基于项目的协同过滤推荐算法的电影推荐系统,并把改进的基于朴素贝叶斯分类的协同过滤算法应用到电影推荐系统中,使得电影推荐系统可以使用三种不同的协同过滤推荐算法进行推荐,并且有不同的推荐效果。  然后使用MovieLens数据集以及推荐算法的评估方法,仿真实验了提出的基于朴素贝叶斯分类的协同过滤推荐算法、传统的基于用户的协同过滤推荐算法和基于项目的协同过滤推荐算法,对比了两种基本的的协同过滤推荐算法以及基于朴素贝叶斯分类的协同过滤推荐算法的实验效果,同时对实验结果进行了分析并证明了基于朴素贝叶斯分类的协同过滤推荐算法能在一定程度上提高推荐系统的推荐质量。最后针对协同过滤推荐算法在数据稀疏性及在大数据规模下系统可扩展性的两个问题,通过加速比实验证明Hadoop集群能够有效地提高基于项目的协同过滤推荐算法在大规模数据集下的执行效率。从而能够进一步的搭建低成本高性能、动态扩展的分布式推荐系统。  
其他文献
文中介绍了光子晶体的发展历史及其传统分析方法,由于一维光子晶体属于一维周期性层状介质,该文分析了一维周期性层状介质的性质.随后,利用传输矩阵方法,并用Matlab为工具对
本文对广州市的禁摩对城市交通体系带来的影响作探索性的分析研究,尝试建立禁摩与城市其他交通方式的互动模型,通过对出行替代方式与摩托车出行之间的成本进行对比,分析现有各种
在我国监狱劳务加工的发展成为了目前监狱经济中的重要业务.从制造业转向劳务加工已经成为了我国监狱企业发展的重要方向之一.同时,也将成为监狱企业在未来社会发展的主要趋
随着我国生态环保理念的日渐深入人心,在进行项目建设的过程当中,更加注重绿色生态环保,因此,在进行高速公路建设的过程当中也加大了绿化工程施工,这样不仅可以美化环境,减少
该论文独立提出了一种全新的适合于航天用的光学遥感器小型化新方法——"亚像元"成像技术,它是一种有利于缩短遥感器光学系统焦距(或提高空间分辨率)从而减小遥感器重量的非
随着新课改的发展,我国高职院校很多专业都开始产生了变化,尤其是经济管理类专业的实践教学过程,高职院校对于这方面的改革也在不断研讨和探究过程中,通过将经济管理类专业作
随着近些年中国的科研实力逐步上升,薪兴的科技企业不断涌现,使得原来在国内处于垄断地位的国外制造企业面临巨大的竞争。目前国内金融行业的纸币清分市场所使用的清分机主要受
本文通过对荣华二采区10
期刊
数字地面模型(Digital Terrain Model简写DTM)是地形信息的数字化表示,适合于铁路工程的数字地面模型又称为带状数字地面模型。数字地面模型技术是铁路数字化选线的基础和核
在道路施工中,沥青混凝土施工技术是主要技术之一,同时沥青混凝土施工质量的高低直接关系到道路施工质量高低,对道路工程使用寿命也有较大影响,为此,当前的道路施工单位一定