论文部分内容阅读
随着互联网的普及以及电子商务的发展,网络信息急剧膨胀,导致信息超载和信息迷航现象日益严重。在这种情况下,推荐系统作为一种有效的信息过滤手段应运而生。推荐系统直接与用户交互,模拟商家向用户提供商品推荐服务,在海量的商品信息中发现用户真正所需的商品。近年来,关于推荐系统的研究在理论上和实践上取得巨大的进展,然而它依然面临着一系列的挑战,比如推荐准确度、关系矩阵的稀疏性等[33]。协同过滤是推荐系统中最核心和应用最为广泛的技术之一。基于内存的协同过滤是协同过滤技术的重要分支通常被划分为两类:基于用户的协同过滤和基于项目的协同过滤[1]。不论以上哪种协同过滤技术,其关键在于选取真正相似的邻居集。本文对推荐系统的组成与体系结构、核心的推荐技术以及评判准则进行有益的探索和研究,主要的工作体现在以下三个方面:首先,理论分析与探讨主要项目相似度的性质,并揭示它们的应用局限性。目前,协同过滤技术中常用的相似度主要有余弦相似度,皮尔逊相似度等[2][5]。我们首先理论上探讨项目相似度的性质,并归纳为引理;然后根据引理分析它们的应用局限性并揭示它们的统计本质。其次,提出了两种新的项目相似度:基于互信息的相似度和基于L1距离的相似度。基于互信息的相似度是建立在项目评分的概率模型之上将统计理论、信息度量[55]与协同过滤技术的具体实际相结合而得到的一种新的相似度衡量方式。一些相似度诸如余弦相似度、皮尔逊相似度等只衡量两个对象之间的线性关系以及有些相似度只检测单态的依赖关系,基于互信息的相似度既考虑线性的关系也考虑非线性的关系[37]。因此,基于互信息的相似度粗粒度地考虑两个对象之间的相互关系,它既可直接用于衡量两个对象之间的项目关系又可被用于对数据集的初步的分类筛选。基于L1距离的相似度是将L1距离应用到协同过滤技术中而得到的一种新的相似度衡量。它具有灵敏度高,计算简单等优点。最后,建造了一个基于分层思想的双层协同过滤框架。本框架采用双层的信息过滤来筛选真正相似的邻居。第一层的信息过滤主要依靠基于互信息的相似度完成,第二层的信息过滤依靠其他的相似度完成,比如余弦相似度、皮尔逊相似度以及基于L1距离的相似度等。试验表明该框架能够提高推荐的质量。