基于Flink的电影推荐系统的研究与实现

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:qingmeizhujiulyx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网建设的不断发展,加之网络视频运营商与传统电视媒体的相互合作,网络视频市场规模逐年增长。网络用户在享受形式和内容丰富多样的视频盛宴的同时,也在不断被大量冗余、无效的信息冲击。这些庞大的数据信息远远超出了用户能承受的程度,严重干扰了用户对自身所需信息的正确选择,导致信息利用率非常低,甚至带给用户困扰和反感。推荐系统作为解决“信息过载”问题的有效手段,这些年来在得以迅速发展的同时也面临着不少挑战,例如数据规模庞大以及算法设计复杂导致推荐算法的执行效率不高、数据稀疏性以及冷启动问题导致推荐效果不好等等。通过研究目前常用的几种推荐算法,分析算法各自存在的优缺点,旨在对这些算法进行改进和优化,从而改善系统推荐效果。首先,通过分析MovieLens开源数据集的数据结构特征,确定本系统的离线推荐功能采用协同过滤算法进行实现,底层计算引擎基于分布式大数据计算平台Apache Spark。通过扩展Spark的自动分区功能并自定义数据分块方式,减少集群中各节点间的数据传输以及笛卡尔乘积的计算量,保证数据在各节点上的均匀散列以及执行任务的均匀分布,最终使改进后的协同过滤算法比改进前的算法在执行速度上有明显提升,且预测准确度几乎不变。其次,针对用户在推荐系统中的评分行为,设计一种实时推荐算法。该算法基于电影标签信息,融合TF-IDF算法进行电影相似度的计算,同时引入时间权重影响因子,构造出用户兴趣度公式,基于该公式为用户产生实时推荐列表。在Apache Flink流式计算平台上进行算法仿真后的结果显示,该算法中的时间权重因子对实时推荐算法的准确率和召回率存在影响,且在时间权重因子λ取值为0.25,α取值为0.6时,两个指标取到极大值,即此时的推荐效果最好;基于Flink实现实时推荐算法的算法执行效率也比基于Spark Streaming有明显提升。最终,基于上述推荐算法,选用目前主流的应用开发框架以及相关组件实现了一套用户界面友好的电影推荐系统,整个推荐系统主要包括数据加载模块、离线推荐模块、实时推荐模块以及系统业务模块四部分。
其他文献
鄂尔多斯盆地陇东地区长(延长组)6段和长7段富含大量致密油,但由于对其微观特征与成因缺乏深入了解,阻碍了该区致密油的有效开采。为此,根据岩石孔隙铸体薄片、场发射扫描电镜等技
目前鄂尔多斯盆地东部古岩溶型碳酸盐岩储层的研究相对薄弱,因此开展奥陶系古岩溶型储层形成机理与天然气富集潜力研究可为天然气储量的发现和开发前景评价奠定基础。通过对
根据金缕梅亚科22属(活塞花属Embolanthera除外)代表种的nrDNA ITS序列数据构建了分子系统树.结合形态解剖证据,金缕梅亚科可分为3个族,即①木族Loropetaleae Zhang trib.nov
信访制度是我们党发扬人民民主、接受群众监督、维护群众权益、巩固执政基础的重要政治制度,在国家治理体系中占有独特地位,具有政治参与、权力监督、权利救济、化解矛盾功能
收到老友荣兆梓教授的新著《论劳动平等》,煌煌40余万言,粗读一过,尚未掩卷,就接到他的电话,殷殷嘱我写序。但该书体大思精,需要多花时间,认真研读,匆忙之间,岂敢贸然作序,只能写一点初
直肠活检对过敏性肠炎综合征是必要的吗?(MaclntoshDG.EXCMed[FSection6]1993;77:43)许多医生对过敏性肠炎综合征(IBC)患者进行直肠活检以便排除结肠黑变病和胶原性或显微结肠炎。为了确定常规直肠活检对IBC的价值,8... Rectal bi