论文部分内容阅读
互联网时代下的信息数据量快速增长,提高了用户查找信息的难度。推荐算法作为一种基于数据的信息过滤与处理技术,为解决此类问题提供了基础理论支撑,并在多种场景得到了良好的应用。本论文以电影作为推荐对象,通过情感分析方式改善电影评分矩阵的稀疏性,研究融合多种推荐算法建立混合推荐模型,设计实现了分布式计算模式下的个性化电影推荐系统。论文通过对国内外研究的历史和现状进行综述,分析目前存在的问题,提出了改进意见和思路,并阐明论文研究内容、研究目的和研究价值。论文对相关的概念和基础理论进行了概述,包括实验数据的获取方式、文本的处理流程、情感分析的研究现状和基本方法、传统推荐系统算法和目前存在的问题、以及分布式框架Spark的基本结构和功能。为有效改善原评分矩阵稀疏性对推荐结果的影响,情感分析部分对电影评论文本进行了细粒度情感分析。根据情感分析结果分别建立用户关注模型和电影特征模型,计算出情感预测评分矩阵;再将该矩阵按照矩阵填充算法填充入原始评分矩阵中,以改善原始矩阵稀疏性问题。在推荐系统模块设计部分,详细介绍了基于物品的协同过滤算法(Item CF)和隐语义模型协同过滤算法(LFM)。以优化后的稠密电影评分矩阵为基础,分别通过掺杂混合和加权混合的方式融合LFM和Item CF,建立新的混合电影推荐算法。在实验验证部分通过情感分析,预测用户评分结果;采用均方根误差(RMSE)确定LFM的隐含主题个数;以准确率和召回率两个指标作为评价依据,分别对混合电影推荐系统和单个电影推荐系统,以及掺杂混合方式和加权混合方式的推荐效果进行了比较分析;为验证分布式计算对于推荐系统运算效率的提升,利用分布式计算框架Spark运行混合电影推荐系统模块,同时与分布式计算框架Hadoop和单机在运算速度方面进行了对比,并展示了推荐结果。本文研究结果表明,掺杂混合和加权混合推荐系统算法在准确率、召回率两个指标方面相较于单一的传统推荐算法都有明显提升,且加权混合模型相比于掺杂混合模型更为出色,有助于提高推荐系统的推荐质量。在处理大数据量的电影推荐系统时,结果显示,Spark相较于Hadoop和单机,可以更有效的缩短运行时间,解决了单个计算机运算速度和资源的不足,有助于实现稳定的快速推荐系统。