论文部分内容阅读
随着互联网应用的飞速发展及信息的多元化,互联网中的信息量呈爆炸性的增长,如何从海量的资源中迅速准确地找到需要的信息,并为用户提供主动的个性化的信息服务,已经成为众多专家、学者和网络用户共同关注的核心问题。在这种背景下个性化推荐系统应运而生。协同过滤(Collaborative Filtering, CF)是目前推荐系统中应用最为广泛和成功的技术,基于协同过滤推荐技术的研究已经成为学术界关注的重点。本文以协同过滤推荐技术为研究对象,对其面临的冷启动问题、推荐质量及扩展性问题、评分数据的高维化及稀疏性等关键问题进行了探讨,提出了相应的解决方法。本文在如下几个方面做了相应的研究。(1)对推荐系统的发展进行了综述。首先介绍了推荐系统的概念,总结了推荐系统的分类。在此基础上给出了协同过滤推荐系统的基本模型,并对模型的表示、评分数据收集等重要步骤进行了描述。然后,对协同过滤推荐技术进行了分类和概括,对几种典型的协同过滤算法进行研究和总结,指出目前存在的问题。最后,简介了推荐系统的其它相关技术。(2)提出了一个基于新用户隐式信息及双属性评分矩阵的冷启动协同过滤推荐算法。通过新用户隐式信息的采集完成隐式评分,通过用户—项目属性评分矩阵来进行用户相似性度量,有效缓解了数据稀疏性;生成用户属性—项目属性评分矩阵,由新项目的属性值依次与用户属性一项目属性评分矩阵中的用户属性进行匹配,评分最高的用户属性作为推荐受众的必要参数,从而实现了新项目的冷启动推荐。由分析用户行为获取的新用户的属性值依次与UAIARM中的项目属性进行匹配,实现了新用户的冷启动推荐;并且解决了给新用户推荐新项目的极端情况。此外,简化后的用户属性—项目属性评分矩阵MARM借助用户属性和项目属性间的联系,为新用户/新项目提供更高效的冷启动推荐。实验表明,本文提出的基于双属性分解的推荐算法有效的缓解了评分数据稀疏性,提高了推荐质量;尤其是在新项目和新用户的双重冷启动情况下提供了有效数目的推荐。(3)提出了一种用聚类算法优化的K近邻协同过滤算法。传统协同过滤算法在计算预测评分时,等同看待K个最近邻、并未考虑它们与其所属类别的关联程度并不相同的情况。考虑到各样本对分类的贡献各不相同的情况,提出区别对待每个样本的思想。算法首先利用基于最大最小距离的多中心聚类算法,处理模糊子集问题,计算出样本与其所属类别的关联度,再利用类别关联度来区别对待待预测样本的K个最近邻。实验证明,使用聚类算法优化后的K近邻算法能够有效提高算法推荐精度。(4)提出了一种高维稀疏矩阵下的改进协同过滤算法。提出先对高维稀疏矩阵维度约简,然后聚类,最后通过用户一模糊簇类评分矩阵和分类矩阵加权建立K近邻集完成预测评分和推荐。其中,PCA或SVD维度约简方法用于对高维矩阵进行全空间降维预处理,产生低维矩阵。提出一个OPFCM聚类算法,用于解决非凸形状簇及任意形状簇的模糊聚类问题。改进的算法对主要参数进行优选,避免了传统FCM算法对参数设置的依赖性;利用隶属度加权有效降低了孤立点对聚类中心的影响,提高了针对不规则形状的多中心模糊聚类的精度。实验证明,OPFCM算法具有较低的空间、时间复杂度及较高的分类聚类质量,适用于大规模评分数据集的聚类工作。在建立K近邻集时,使用用户—模糊簇类评分矩阵发现用户感兴趣簇类,使用用户对簇类的评分及分类矩阵内评分加权选择K近邻。最后通过K近邻完成协同过滤推荐。实验证明,在大规模的高维稀疏样本集下进行协同过滤推荐的时候,相对于基于K-means聚类算法和基于DBSCAN聚类算法的CF推荐,本文提出的推荐算法在推荐质量上具有明显的优势。(5)建设了一个基于范例推理的教学资源推荐原型系统。设计了推荐系统的框架模型,并对范例及问题的描述、范例检索、范例复用、范例修正、范例存储等系统实现的关键步骤作了详细的说明。同时对原型系统的模块设计、开发平台、开发工具进行了描述,为今后进一步的研究和应用奠定基础。