论文部分内容阅读
据互联网中心的数据报告表明,即便我们坐拥海量信息,可真正找到对自己有用信息的效率变得越来越低;这意味着信息的海量供给和用户需求间的矛盾正在与日俱增。而推荐系统是帮助用户快速发现有用信息的一种工具,是缓解海量信息供给与用户需求矛盾的一种有效解决方案。其中,协同过滤技术是推荐系统中应用最多的技术。本文以协同过滤为研究目标旨在解决该算法中存在的数据稀疏性、冷启动、可扩展性等问题,针对这些问题本文提出了自己的解决方案,研究内容主要包括如下三个方面:(1)相似度计算是协同过滤的核心环节,其计算的准确与否对推荐结果影响很大。在数据非常稀疏的情况下,针对常用的相似度计算结果存在较大偏差,导致推荐结果不理想的问题,本文提出了一种新的相似度计算方法。在有共同评分项目的基础上,根据评分时间越近,用户的相似度越高,所提算法融入时间因素;同时,为避免活跃用户和热门项目对相似度计算造成的不当贡献,本文也进行了相关思考。由实验结果表明,本文的方法在一定程度上提高了推荐准确度。(2)为减少近邻搜索空间,从一定程度上提高推荐系统的可扩展性问题,本文将K均值聚类算法与基于相似度计算的协同过滤算法结合在一起进行推荐。首先通过K均值聚类算法将用户划分到相应的类或簇中;然后在各类或簇中结合第三章的相似度计算方法去找与目标用户相似度高的其他用户;最后选择相似度高的组成目标用户的最近邻,根据最近邻的评分进行预测与推荐。同时,为突出用户近期评分对推荐结果更有意义,本文在评分预测时引入了时间衰减函数。实验结果表明本文的算法从一定程度上讲是可行的。(3)本文研究了基于协同过滤的电影原型推荐系统,给出了开发环境及实现界面并分析讨论了系统的架构及核心模块设计。