多因素综合框架的协同过滤推荐算法

来源 :大连理工大学 | 被引量 : 11次 | 上传用户:wu21211721
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
购物决策有"货比三家"的需求。但是,当今的电商购物环境下,商家动辄百万家,商品动辄几亿种,人们的时间和精力无法在这种环境下,对信息和商品进行有效的过滤和分析。因此,推荐系统技术被引入到电商领域中,在商业实践中取得了不俗的表现和成果。由于巨大的商业价值,使得推荐算法在理论研究领域也成为热点之一。本文首先提出了 "多因素综合的协同过滤推荐算法框架"。正确的"推荐者"带来正确的推荐,所以,"推荐者"的评估是决定推荐算法的关键步骤。"行为一致性"是传统协同过滤推荐算法评估"推荐者"的思想基础。即:购买的相同商品越多,用户兴趣就越相似,就越有资格成为"推荐者"。这种仅从"行为一致性"角度分析"推荐者"的传统协同过滤推荐算法的研究框架没有综合考虑推荐所涉及的多方面因素,这对最终的推荐效果势必造成影响。并且"行为数据"在实际系统中是"稀疏"的,这也使得这种仅依靠"行为一致性"进行分析的算法变得在实践中难以实现。总之,传统算法框架受制于"数据稀疏"和"因素单一"两大内在局限,这使得协同过滤算法的研究和发展受到了一定程度的阻碍。针对传统框架的以上两个局限性,本文提出"多因素综合的协同过滤推荐算法框架",与仅考虑"行为一致性"的传统研究框架不同,新框架还综合考虑了用户的"品位认同性"和商品的"属性相关性"。在新研究框架基础上,本文提出了三类新的协同过滤推荐算法:迭代相似度协同过滤推荐算法(及其改进算法),全局认可度协同过滤推荐算法和分众标志度协同过滤推荐算法。三种算法的共同点在于它们是本文提出的算法研究框架的具体算法实现。不同点在于三者分别综合了不同的因素对推荐问题进行了研究。并且三种算法适用的情况也不尽相同。本文选取"天猫电商数据集"和"Movielens视频数据集"对算法进行验证,这是因为电商系统和视频娱乐系统是当今推荐系统主要的两大应用领域。在多种不同衡量指标下,与HHC算法和INBI算法等当今优秀的推荐算法的对比中,本文提出的算法不仅提高了推荐的精确度,而且对于数据稀疏问题和个性化推荐问题的解决都有很大帮助。具体算法介绍如下:"迭代相似度协同过滤推荐算法"是针对"数据稀疏问题"而被提出的。它在新框架基础上综合考虑了用户-用户间的"品位认同性"和用户-商品间的"行为一致性"因素。"迭代相似度"是相似度的相似度,它更加符合真实的推荐过程。这一算法思路可以用来改进多种传统的推荐算法,本文分别实现了两种版本的迭代相似度协同过滤推荐算法——"基于用户类皮尔斯相关系数"的版本(简称MSCF)和"基于项目物质扩散算法"的版本(简称metaNBI)。实验结果表明,在多个数据集和衡量指标下,该算法对于推荐的精确度都有大幅度提高。并且该算法对于数据稀疏问题的缓解也大有帮助,因为该算法可以衡量没有共同购买的用户之间的相似关系。在"迭代相似度"的基础上,进一步考虑三次迭代相似度和重叠度等因素的情况,本文提出了多因素修正的迭代相似度协同过滤推荐算法,实验表明,相对于标准迭代相似度协同过滤推荐算法,它在推荐的准确度方面有更好的表现。"全局认可度协同过滤推荐算法"是针对"哈利波特问题"而被提出的。它在新框架基础上综合考虑了商品-商品间的"属性相关性"和用户-商品间的"行为一致性"因素。这种算法思路也具有广泛的适用性,因此,本文也实现了"基于用户类皮尔斯相关系数"的版本(简称IRankUCF)和"基于项目物质扩散算法"的版本(简称IRankNBI)。与迭代相似度算法不同的是它依据商品间的"属性相关性"而不是用户间的"品位认同性"进行研究。并且,实验结果表明,该算法对于推荐的多样性和个性化水平有很大改善作用,这是迭代相似度算法不具备的改进效果。"分众标志度协同过滤推荐算法"是针对"个性化推荐问题"而被提出。在新框架的基础上,它综合考虑了"品位认同性"和"行为一致性"因素。与"全局认可度"主要考虑商品之间"属性相关性"不同,"分众标志度"主要根据用户间"品位认同性"进行研究。实验结果表明,该算法不止提高了推荐的精确度,而且对于推荐的个性化和多样性效果也大为改善。这也弥补了迭代相似度协同过滤推荐算法的不足。本文通过上述研究内容和创新点的讨论,多角度的分析了不同因素对于推荐效果的影响,提出了一种综合考虑多种因素的协同过滤推荐算法框架。实验结果表明,在新研究框架上所提出的新算法在推荐精确度,个性化,缓解数据稀疏问题等方面都有良好表现。
其他文献
本文结合后天宫景区内崩塌具体工程案例,分析工程地质条件及施工场地周边的特征,针对城市中的崩塌灾害形成原因进行分析探究,讨论其危害性和常见的治理措施.提出了合理经济的施工
<正>设计理念: 打破逐句逐段讲析的阅读教学模式,力避因训练与感悟的脱节而肢解血肉丰满的艺术形象,破坏课堂教学的和谐韵律。注重整体感知,用文学作品的整体形象、整体意蕴
医学图像配准是近年来医学图像处理领域的研究热点之一,在临床诊断与治疗等多个方面具有广泛的应用价值。但是目前配准算法研究中仍然存在很多亟待解决的问题,本文针对其中制
边缘检测是图像处理中的基础问题,也是经典的技术难题之一,其结果对于特征提取和描述、目标检测和识别、图像理解等后续处理和应用有非常重要的影响,因此开展相关问题的研究
针对现有数据流聚类算法的不足,提出一种基于云模型的数据流软聚类算法。从云概要数据结构、数据流软聚类算法,数据流软聚类的演化分析、孤立点挖掘、有效性评价以及多数据流
我国森林资源有限,资源总量相对不足,林地生产力低、科学经营能力差、科技支撑力度弱等因素制约我国林业的快速发展。然而随着图像处理和计算机视觉等新技术的快速发展,以及
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
综述了40余篇国内外关于五加科鹅掌柴属植物的化学成分和生理活性等方面的文章,并对其在我国的研究开发前景进行了讨论.
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
  本文主要针对5000m3级别大型高炉的高风温热风炉技术进行技术比较分析,选择5000m3级别大型高炉的设计实例,在风温、风量、燃烧介质等热风炉设计参数相同的同口径条件下,对Di