论文部分内容阅读
随着互联网的普及和电子商务的飞速发展,网络上的商品信息严重“过载”,用户很难在大量的商品信息中找到真正需要的商品。电子商务推荐系统根据用户个人的习惯和偏好向用户推荐其有可能感兴趣的商品,它是解决商品信息“过载”问题的主要工具。协同过滤技术是目前电子商务推荐系统中应用最广泛,并且最成功的技术之一。它的基本思想是:用户是可以按照兴趣分类的,具有相似兴趣的用户会购买相似的商品。但是随着商品信息量和用户量的与日俱增,协同过滤推荐系统,尤其是采用基于内存的协同过滤推荐算法的协同过滤推荐系统的发展面临着严重的用户评分数据稀疏性问题。因此,论文对协同过滤技术中的基于内存的协同过滤推荐算法进行了有益的探索和研究,特别是在数据稀疏性问题上的研究。
本论文的工作贡献如下:
一、详尽地阐述了基于内存的协同过滤推荐算法在缓和数据稀疏性问题上的国内外研究现状。总体来讲,我们可以把这些研究现状分为两大类:一类是矩阵填充技术;一类是传递技术。矩阵填充技术首先通过某种填充策略,比如固定的缺省值、用户的平均评分、神经网络等技术,得到更多的用户评分数据,然后在这些数据的基础上应用传统的基于内存的协同过滤推荐算法对用户进行推荐。然而传递技术利用传递或者递归的思想找到更多的用户间或商品间,或用户与商品间的关系,比如利用信任度的传递寻找更多与当前用户具有相似兴趣偏好的用户,然后利用这些关系对用户进行推荐。
二、详细介绍了两类基于内存的协同过滤推荐算法-基于用户协同过滤推荐算法和基于项目协同过滤推荐算法,并通过实验分析了采用不同相似度度量函数和不同预测评分函数时,基于内存的协同过滤推荐算法在推荐准确度方面不同的原因。最后指出在随着用户和商品信息量不断急剧增加的情况下基于内存的协同过滤推荐技术存在的缺陷,即不能很好的处理数掘稀疏性问题。
三、针对传统的基于内存的协同过滤推荐算法在数据稀疏性问题上存在的不足,我们提出了一种改进的基于内存的协同过滤推荐算法----利用相似度传递的基于内存的的协同过滤推荐算法。该算法通过相似度传播的思想,寻找到更多、更可靠的邻居,然后在这些邻居基础上,从用户和项目两方面信息考虑对用户进行推荐。最后,采用MovieLens数据集和Yahoo音乐数据集对论文提出的算法进行了仿真实验。实验结果表明:基于内存的相似度传递的协同过滤推荐算法在推荐准确性方面优于传统的基于内存的协同过滤推荐算法。