论文部分内容阅读
随着互联网的不断发展,网络数据呈现爆炸式增长。虽然海量的数据给人们的生活的方方面面带来了巨大的便利,丰富了人们对于信息的需求,但是巨大的数据量增加了人们获取对自身有用信息的困难程度,造成了信息过载。电影信息也是如此,随着电影的数量不断增加,用户找到自己喜欢电影的难度不断增加。如何从种类繁多、数量巨大的电影数据中找到每一位用户喜欢的电影成为研究热点。电影推荐系统作为能够处理这种问题的有效办法之一,已经成为电影提供商和研究人员研究的重点。电影推荐系统的核心是电影推荐算法,电影推荐算法的研究主要关注两个方面:top-N列表推荐和评分预测。top-N列表推荐的研究重点在于如何为用户生成满意的电影推荐列表,而评分预测则更加关注预测用户对某些电影的评分。矩阵分解推荐算法因为易于实现和时间复杂度较低的缘故,在电影top-N列表推荐中被广泛使用。但是,传统的矩阵分解推荐算法存在以下问题:当评分数据过于稀疏时,矩阵分解推荐算法的推荐性能会下降。另一方面,基于内存的协同过滤算法因为思想简单、易于实现等优点在电影评分预测中被广泛的使用,但评分数据的稀疏性和相似度的计算方法会严重影响协同过滤算法评分预测准确性。本文针对这两个方面存在的问题展开研究,主要工作如下:1.针对评分数据稀疏性问题给矩阵分解推荐算法带来的影响,在深度矩阵分解推荐模型的基础上,提出一个非对称深度矩阵分解推荐模型。该模型是一种具有非对称神经网络架构的新型矩阵分解模型,它充分地考虑到显式评分和隐式反馈对推荐结果的影响作用,将显式评分和隐式反馈结合起来,提出一种新的交互矩阵填充方法,来提高稀疏评分数据的利用率,缓解评分数据稀疏性对模型的推荐准确性影响;考虑到用户和电影数量的差异,采用非对称的神经网络对交互矩阵进行学习,以得到更加合理的参数。在MovieLens-100K和MovieLens-1M数据集上,把本文提出的非对称深度矩阵分解推荐模型与相关研究成果进行对比实验,采用HR和NDCG作为评价指标,实验结果表明,所提出的推荐模型能更加准确地进行电影top-N列表推荐。2.针对评分数据稀疏性和相似度计算方法对协同过滤算法的影响,提出基于高斯混合模型和改进Jaccard相似度的协同过滤算法。首先,提出一种新的交互矩阵构建方法,使用高斯混合模型对评分数据进行聚类,依据聚类对象的不同,算法可以拆分为对用户聚类构建交互矩阵的算法一和对电影进行聚类构建交互矩阵的算法二,通过聚类结果给相应用户和电影打上所属簇的簇标签,依据用户、电影和它们所属的簇标签来分别构建新的用户-电影交互矩阵,以此来缓解评分数据稀疏性对协同过滤算法评分预测效果的影响;其次,分析Jaccard相似度存在的不足,它在计算相似性时仅考虑到用户是否对电影评分,忽略了评分分值对相似性度量的影响,因此,把三角相似度和Jaccard相似度进行结合,提出一种新的相似度计算方法来消除这种不足。在MovieLens-100K,MovieLens-1M和Yahoo!Webscope R4电影数据集上,把所提出的算法与四种现有的基于协同过滤的推荐算法进行对比实验,使用MAE作为评价指标,实验结果表明,相对于现存的四种基于协同过滤的推荐算法,所提出的算法得到评分预测结果更加准确。