论文部分内容阅读
购物决策有"货比三家"的需求。但是,当今的电商购物环境下,商家动辄百万家,商品动辄几亿种,人们的时间和精力无法在这种环境下,对信息和商品进行有效的过滤和分析。因此,推荐系统技术被引入到电商领域中,在商业实践中取得了不俗的表现和成果。由于巨大的商业价值,使得推荐算法在理论研究领域也成为热点之一。本文首先提出了 "多因素综合的协同过滤推荐算法框架"。正确的"推荐者"带来正确的推荐,所以,"推荐者"的评估是决定推荐算法的关键步骤。"行为一致性"是传统协同过滤推荐算法评估"推荐者"的思想基础。即:购买的相同商品越多,用户兴趣就越相似,就越有资格成为"推荐者"。这种仅从"行为一致性"角度分析"推荐者"的传统协同过滤推荐算法的研究框架没有综合考虑推荐所涉及的多方面因素,这对最终的推荐效果势必造成影响。并且"行为数据"在实际系统中是"稀疏"的,这也使得这种仅依靠"行为一致性"进行分析的算法变得在实践中难以实现。总之,传统算法框架受制于"数据稀疏"和"因素单一"两大内在局限,这使得协同过滤算法的研究和发展受到了一定程度的阻碍。针对传统框架的以上两个局限性,本文提出"多因素综合的协同过滤推荐算法框架",与仅考虑"行为一致性"的传统研究框架不同,新框架还综合考虑了用户的"品位认同性"和商品的"属性相关性"。在新研究框架基础上,本文提出了三类新的协同过滤推荐算法:迭代相似度协同过滤推荐算法(及其改进算法),全局认可度协同过滤推荐算法和分众标志度协同过滤推荐算法。三种算法的共同点在于它们是本文提出的算法研究框架的具体算法实现。不同点在于三者分别综合了不同的因素对推荐问题进行了研究。并且三种算法适用的情况也不尽相同。本文选取"天猫电商数据集"和"Movielens视频数据集"对算法进行验证,这是因为电商系统和视频娱乐系统是当今推荐系统主要的两大应用领域。在多种不同衡量指标下,与HHC算法和INBI算法等当今优秀的推荐算法的对比中,本文提出的算法不仅提高了推荐的精确度,而且对于数据稀疏问题和个性化推荐问题的解决都有很大帮助。具体算法介绍如下:"迭代相似度协同过滤推荐算法"是针对"数据稀疏问题"而被提出的。它在新框架基础上综合考虑了用户-用户间的"品位认同性"和用户-商品间的"行为一致性"因素。"迭代相似度"是相似度的相似度,它更加符合真实的推荐过程。这一算法思路可以用来改进多种传统的推荐算法,本文分别实现了两种版本的迭代相似度协同过滤推荐算法——"基于用户类皮尔斯相关系数"的版本(简称MSCF)和"基于项目物质扩散算法"的版本(简称metaNBI)。实验结果表明,在多个数据集和衡量指标下,该算法对于推荐的精确度都有大幅度提高。并且该算法对于数据稀疏问题的缓解也大有帮助,因为该算法可以衡量没有共同购买的用户之间的相似关系。在"迭代相似度"的基础上,进一步考虑三次迭代相似度和重叠度等因素的情况,本文提出了多因素修正的迭代相似度协同过滤推荐算法,实验表明,相对于标准迭代相似度协同过滤推荐算法,它在推荐的准确度方面有更好的表现。"全局认可度协同过滤推荐算法"是针对"哈利波特问题"而被提出的。它在新框架基础上综合考虑了商品-商品间的"属性相关性"和用户-商品间的"行为一致性"因素。这种算法思路也具有广泛的适用性,因此,本文也实现了"基于用户类皮尔斯相关系数"的版本(简称IRankUCF)和"基于项目物质扩散算法"的版本(简称IRankNBI)。与迭代相似度算法不同的是它依据商品间的"属性相关性"而不是用户间的"品位认同性"进行研究。并且,实验结果表明,该算法对于推荐的多样性和个性化水平有很大改善作用,这是迭代相似度算法不具备的改进效果。"分众标志度协同过滤推荐算法"是针对"个性化推荐问题"而被提出。在新框架的基础上,它综合考虑了"品位认同性"和"行为一致性"因素。与"全局认可度"主要考虑商品之间"属性相关性"不同,"分众标志度"主要根据用户间"品位认同性"进行研究。实验结果表明,该算法不止提高了推荐的精确度,而且对于推荐的个性化和多样性效果也大为改善。这也弥补了迭代相似度协同过滤推荐算法的不足。本文通过上述研究内容和创新点的讨论,多角度的分析了不同因素对于推荐效果的影响,提出了一种综合考虑多种因素的协同过滤推荐算法框架。实验结果表明,在新研究框架上所提出的新算法在推荐精确度,个性化,缓解数据稀疏问题等方面都有良好表现。