论文部分内容阅读
随着信息技术和互联网的发展,人们逐渐从信息匮乏的时代进入了信息过载的时代。在这个时代,无论是信息的生产者还是信息的消费者都遇到很大的挑战:对于信息生产者,使自己生产出的信息脱颖而出,受到广大用户的好评,是一件非常困难的事情;对于信息消费者,从大量信息中发现自己感兴趣的信息也是一件非常困难的事情。推荐系统就是解决这一矛盾的重要工具。推荐系统主动发现用户当前或潜在需求,并主动推送信息给用户。它依托海量数据,分析用户的行为、属性,对象的属性、内容、分类,以及用户之间的社交关系等等,挖掘用户的喜好和需求,主动向用户推荐其感兴趣或者需要的对象。目前影响推荐技术的关键因素有冷启动问题,在大数据场景下的应用问题以及推荐算法的准确性等问题。 本文针对推荐系统存在的这些问题展开研究工作,实现了基于Hadoop的协同过滤推荐算法。首先,相似性度量方法的效果直接决定了推荐系统的准确率,本文引入用户共同评分项的流行度及用户的人口统计学特征值之间的相关性,实现了一个改进的相似度度量方法及相应的协同过滤推荐算法。对比实验表明,该算法在一定程度上提高了推荐的准确度。其次,协同过滤算法的应用往往在大数据场景下,算法的计算量将随着用户数量和项目数量的增加而不断增加,本文研究了云计算环境下传统协同过滤算法的可扩展性问题,研究实现了基于Hadoop的协同过滤算法。 基于Hadoop平台基础上的协同过滤算法详细研究,实现和部署了一个电影推荐系统,并在其中应用了改进的相似度度量方法及相应的协同过滤推荐算法。此系统具备大规模数据的处理能力,具有良好的可扩展性。