面向稀疏评分数据的电影推荐技术研究

来源 :西南大学 | 被引量 : 0次 | 上传用户:dingyougui1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的不断发展,网络数据呈现爆炸式增长。虽然海量的数据给人们的生活的方方面面带来了巨大的便利,丰富了人们对于信息的需求,但是巨大的数据量增加了人们获取对自身有用信息的困难程度,造成了信息过载。电影信息也是如此,随着电影的数量不断增加,用户找到自己喜欢电影的难度不断增加。如何从种类繁多、数量巨大的电影数据中找到每一位用户喜欢的电影成为研究热点。电影推荐系统作为能够处理这种问题的有效办法之一,已经成为电影提供商和研究人员研究的重点。电影推荐系统的核心是电影推荐算法,电影推荐算法的研究主要关注两个方面:top-N列表推荐和评分预测。top-N列表推荐的研究重点在于如何为用户生成满意的电影推荐列表,而评分预测则更加关注预测用户对某些电影的评分。矩阵分解推荐算法因为易于实现和时间复杂度较低的缘故,在电影top-N列表推荐中被广泛使用。但是,传统的矩阵分解推荐算法存在以下问题:当评分数据过于稀疏时,矩阵分解推荐算法的推荐性能会下降。另一方面,基于内存的协同过滤算法因为思想简单、易于实现等优点在电影评分预测中被广泛的使用,但评分数据的稀疏性和相似度的计算方法会严重影响协同过滤算法评分预测准确性。本文针对这两个方面存在的问题展开研究,主要工作如下:1.针对评分数据稀疏性问题给矩阵分解推荐算法带来的影响,在深度矩阵分解推荐模型的基础上,提出一个非对称深度矩阵分解推荐模型。该模型是一种具有非对称神经网络架构的新型矩阵分解模型,它充分地考虑到显式评分和隐式反馈对推荐结果的影响作用,将显式评分和隐式反馈结合起来,提出一种新的交互矩阵填充方法,来提高稀疏评分数据的利用率,缓解评分数据稀疏性对模型的推荐准确性影响;考虑到用户和电影数量的差异,采用非对称的神经网络对交互矩阵进行学习,以得到更加合理的参数。在MovieLens-100K和MovieLens-1M数据集上,把本文提出的非对称深度矩阵分解推荐模型与相关研究成果进行对比实验,采用HR和NDCG作为评价指标,实验结果表明,所提出的推荐模型能更加准确地进行电影top-N列表推荐。2.针对评分数据稀疏性和相似度计算方法对协同过滤算法的影响,提出基于高斯混合模型和改进Jaccard相似度的协同过滤算法。首先,提出一种新的交互矩阵构建方法,使用高斯混合模型对评分数据进行聚类,依据聚类对象的不同,算法可以拆分为对用户聚类构建交互矩阵的算法一和对电影进行聚类构建交互矩阵的算法二,通过聚类结果给相应用户和电影打上所属簇的簇标签,依据用户、电影和它们所属的簇标签来分别构建新的用户-电影交互矩阵,以此来缓解评分数据稀疏性对协同过滤算法评分预测效果的影响;其次,分析Jaccard相似度存在的不足,它在计算相似性时仅考虑到用户是否对电影评分,忽略了评分分值对相似性度量的影响,因此,把三角相似度和Jaccard相似度进行结合,提出一种新的相似度计算方法来消除这种不足。在MovieLens-100K,MovieLens-1M和Yahoo!Webscope R4电影数据集上,把所提出的算法与四种现有的基于协同过滤的推荐算法进行对比实验,使用MAE作为评价指标,实验结果表明,相对于现存的四种基于协同过滤的推荐算法,所提出的算法得到评分预测结果更加准确。
其他文献
[目的]1、探讨CTE常规CT征象判断CD肠腔狭窄性质的能力。2、探讨双能量CT增强动、静脉期CT值、碘浓度、NIC、能谱曲线斜率等定量参数对CD肠腔狭窄性质的鉴别价值。[方法]收集
在“一带一路”的发展蓝图之下,中国有意在泰国南部修建运河,以此减少航运距离、提升安全等级,进而减少贸易成本。其实对泰国来说修建泰国运河并不是一个新的想法,早在350年
目的:通过对息肉样脉络膜血管病变(Polypoidal choroidal vasculopathy,PCV)患者的术前术后吲哚菁绿血管造影(Indocyanine green angiography,ICGA)表现、术前术后光学相干断
[目的]研究TIPS术后患者生存情况、肝脏功能的变化、肝性脑病的发生、消化道再出血、支架是否通畅及其影响因素,以评价远期疗效和安全性;研究接受TIPS治疗的患者术后抗血小板
人口老龄化给养老保障制度的可持续性和全面性带来了巨大的挑战,如何解决这场人口危机带来的“未备先老”是制度改革面临的难题,在此背景下,延迟退休被认为可以提升个人福利,同时缓解基本养老保险的财政压力。而现有对延迟退休问题的研究主要是从公共养老金和劳动力市场的角度切入,很少从养老保障、养老金融的视角讨论,但国际上的经验和研究却表明延迟退休政策的有效运行要求有配套的、积极的政策环境,尤其是制度环境。延迟退
市场营销策略的改进可以使企业依据科学的方法开展营销工作,提升公司综合竞争能力。本文目的在于通过调查研究为骊骅淀粉股份有限公司改进新的国内市场营销策略,使公司不断增
20世纪90年代以来,全球经济飞速发展,伴随着全球经济一体化进程的不断加速,企业面临的竞争日益激烈,企业想要在激烈的市场竞争中立于不败之地,一方面需要尽可能的满足客户需要,另一方面需要严格的控制自己的成本,谋求资本的有效利用,防止资金僵化,确保正常的现金流,使企业能够良性的运营。库存管理作为企业管理中重要的一环越来越受到国内外企业的重视,如何制定恰当的库存管理策略,把库存控制在经济合理的水平上,在
随着全球经济一体化的深入以及全球贸易摩擦导致企业竞争激烈,同时日益增长的运营成本使得企业生存压力巨大;另外市场对于产品已经从单一批量的需求转为多品种小批量类型,客
扶贫是全世界的共同话题,不论发达国家或是发展中国家都存在不同程度的贫困问题。党的“十八大”报告中明确指出,我国解决贫困问题“要增强农村发展活力,逐步缩小城乡差距,促
文獻研究是語言與文學研究工作的基礎,詞彙又是漢語系統中不可或缺的一部分。謝肇淛《五雜組》作為明代重要的筆記小說之一,在文獻研究和詞彙研究兩方面具有獨特價值。古籍版