论文部分内容阅读
近年来互联网发展速度一日千里,变化日新月异。电脑、手机的迅速普及和功能的强劲使得人们在足不出户的情况下就能通过互联网了解国内外资讯、查看新闻、关注娱乐时尚、获取理财建议、观看幽默笑话、购买商品等等,带来了极大的便利。与此同时,数据量也呈爆炸式增长,每天在互联网上产生的数据数量已经达到了PB级。在海量的信息面前,用户主动去查找自己喜欢的内容、快捷地筛选对自己有用的信息变得极为困难。针对这些问题,推荐系统诞生了,它可以通过记录用户日常上网的行为数据,分析出不同用户的不同喜好,从而有针对性地进行个性化推荐。要实现这样的推荐系统,需要进行两个方面的研究。一是需要有好的推荐算法,提高推荐的准确性;二是需要能够快速地处理数据,降低算法的运行时间。目前,协同过滤算法在工程中应用广泛,除了算法本身还需要进行优化以外,大数据时代下对算法的效率也提出了要求。协同过滤算法中的相似度计算方法有很多种,而实际使用时只是选择其中一种进行计算,不能很好的覆盖用户喜好的多样性,也使得算法的准确率大打折扣。同时,目前大多数研究的重点都在关注推荐系统的准确度,而忽略了其他的一些指标。因此,如何完整地评价推荐系统也需要进行研究。本文使用Hadoop云计算平台,先深入研究Hadoop云计算平台中的技术,再研究了协同过滤推荐算法的UserCF和ItemCF,提出了组合相似度计算方法的思想。把推荐算法部署到Hadoop云计算平台上,实现算法的并行化计算,提高算法效率。建立推荐系统的评价体系,运用查准率、查全率、MAE以及加速比来评价推荐系统的整体性能。最后文章中做了两个实验,使用基于云计算的ItemCF实现一个电影推荐系统,通过输入互联网上的用户评分数据集观察结果,分析其性能。接着在职位推荐系统中,同时使用多种推荐算法相比较,找出相对优秀的两种相似度计算方法,将它们进行组合,并在实验中找到理想的组合方式。同时证明云计算平台的高性能,与推荐算法结合达到了预期的效果。本文中基于云计算的推荐系统,通过组合算法,提高了推荐结果的准确度;通过使用Hadoop云计算平台,提高了推荐系统的性能,这些对实际工程都有着重要意义。