基于内存的协同过滤推荐算法研究

来源 :中国科学院研究生院 中国科学院大学 | 被引量 : 0次 | 上传用户:gy19910192
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的普及和电子商务的飞速发展,网络上的商品信息严重“过载”,用户很难在大量的商品信息中找到真正需要的商品。电子商务推荐系统根据用户个人的习惯和偏好向用户推荐其有可能感兴趣的商品,它是解决商品信息“过载”问题的主要工具。协同过滤技术是目前电子商务推荐系统中应用最广泛,并且最成功的技术之一。它的基本思想是:用户是可以按照兴趣分类的,具有相似兴趣的用户会购买相似的商品。但是随着商品信息量和用户量的与日俱增,协同过滤推荐系统,尤其是采用基于内存的协同过滤推荐算法的协同过滤推荐系统的发展面临着严重的用户评分数据稀疏性问题。因此,论文对协同过滤技术中的基于内存的协同过滤推荐算法进行了有益的探索和研究,特别是在数据稀疏性问题上的研究。   本论文的工作贡献如下:   一、详尽地阐述了基于内存的协同过滤推荐算法在缓和数据稀疏性问题上的国内外研究现状。总体来讲,我们可以把这些研究现状分为两大类:一类是矩阵填充技术;一类是传递技术。矩阵填充技术首先通过某种填充策略,比如固定的缺省值、用户的平均评分、神经网络等技术,得到更多的用户评分数据,然后在这些数据的基础上应用传统的基于内存的协同过滤推荐算法对用户进行推荐。然而传递技术利用传递或者递归的思想找到更多的用户间或商品间,或用户与商品间的关系,比如利用信任度的传递寻找更多与当前用户具有相似兴趣偏好的用户,然后利用这些关系对用户进行推荐。   二、详细介绍了两类基于内存的协同过滤推荐算法-基于用户协同过滤推荐算法和基于项目协同过滤推荐算法,并通过实验分析了采用不同相似度度量函数和不同预测评分函数时,基于内存的协同过滤推荐算法在推荐准确度方面不同的原因。最后指出在随着用户和商品信息量不断急剧增加的情况下基于内存的协同过滤推荐技术存在的缺陷,即不能很好的处理数掘稀疏性问题。   三、针对传统的基于内存的协同过滤推荐算法在数据稀疏性问题上存在的不足,我们提出了一种改进的基于内存的协同过滤推荐算法----利用相似度传递的基于内存的的协同过滤推荐算法。该算法通过相似度传播的思想,寻找到更多、更可靠的邻居,然后在这些邻居基础上,从用户和项目两方面信息考虑对用户进行推荐。最后,采用MovieLens数据集和Yahoo音乐数据集对论文提出的算法进行了仿真实验。实验结果表明:基于内存的相似度传递的协同过滤推荐算法在推荐准确性方面优于传统的基于内存的协同过滤推荐算法。  
其他文献
随着计算机网络技术的发展以及网络规模的扩大,计算机网络正承受着诸如黑客攻击等技术的威胁,因此计算机网络安全状况成为人们关注的焦点。入侵检测技术作为在防火墙之后保护
近年来出现一类具有链路长延迟、端到端路径频繁中断、能量缺乏供给、存储能力有限等特点的网络,该类网络无法直接应用现有Internet体系结构和协议。针对这些特点,研究人员提
符号计算是数学、计算机和人工智能相结合的一门交叉学科。随着计算机硬件性能的提高和软件功能的增强,人们通过计算机程序化地处理一些数学推理和代数计算问题逐渐成为可能。
随着互联网与信息技术的发展,电子商务的运营模式逐渐被人们所接受,但是传统的电子商务模式因其系统功能单一、交易成本高、自动化程度低等原因不能适应用户们的需求,因此人
大气电学是研究电离层以下的大气中所发生的各种电学现象及其生成和相互作用的物理过程的学科,是大气物理学的一个重要分支。大气电学的研究是当前世界各航天大国所面临的共
作为云计算的核心技术之一,虚拟化是计算机系统技术领域当前的研究热点。虚拟化技术的资源共享、对异构平台的抽象性、隔离性和在线迁移等特性,使之广泛应用于各个数据中心。然
数字家庭是当前世界各国正在努力探索的新型产业,发达国家已经在基础通信、智能家居和养老服务等方面取得显著进展。中国数字家庭虽处于起步阶段,但发展速度非常快。现阶段数
海量数据处理是云计算的核心技术之一。在互联网、商业和科学计算等领域,数据量已经达到TB甚至PB量级,并且数据在爆炸性地增长。分析海量数据能够给我们带来新的知识和深刻的洞
目前,XML已经在互联网环境中扮演着越来越重要的角色,逐渐成为各种各样数据的存储、交换和表示标准。为了满足查询和处理XML数据的需求,W3C发布了XQuery语言正式推荐标准,作
随着网络信息的迅速增长,如何提高信息检索系统对自然语言的处理能力,成为了研究热点。文本关联性计算作为信息检索处理中一项基础性技术,直接影响着检索结果的好坏。而传统的基