论文部分内容阅读
在当今时代,科学技术飞速发展,短视频靠着短小精悍、内容丰富、生动鲜明等特点逐渐走向了日常生活。短视频作为当今休闲娱乐的重要活动方式,为用户提供了大量精彩的内容。而面对爆发式增长的短视频资源,如何获取用户感兴趣的短视频是一个需要解决的问题,推荐系统随之应运而生。大部分短视频行业如抖音、快手、今日头条、微博、秒拍等的运营均采用了各式各样的推荐策略。推荐系统的功能在于根据用户的基本信息、喜好、浏览历史以及评分记录等,将用户感兴趣的内容呈现在用户面前。然而,短视频推荐系统事实上往往存在需要面对海量计算以及推荐算法面临的数据稀疏性问题。基于此背景,本文提出了采用Spark数据平台的方式以及一种改进协同过滤与内容推荐的短视频混合推荐算法。主要所做的工作如下:针对需要面对海量计算的问题,本文采用了Spark大数据平台来应对大规模的数据处理。Spark是与Hadoop相似的开源集群计算环境,但与Hadoop不同的是Spark可以将Hadoop集群中的应用在内存中的运行速度提升100倍,甚至能够将在磁盘上的运行速度提升10倍,有效的缓解了短视频推荐系统所面对的需要海量计算问题。针对数据稀疏性问题,有的学者提出了一种基于协同过滤与内容推荐的短视频混合推荐算法,本文将在此基础上提出一种改进协同过滤与内容推荐的短视频混合推荐算法。通过短视频的分类标签以及用户的评分历史来计算短视频之间的相似度,再预测用户-短视频评分矩阵中缺失的评分值并填充,有效的缓解了短视频推荐系统所面临的数据稀疏性问题。