基于Flink的电影推荐系统的研究与实现

来源 :电子科技大学 | 被引量 : 0次 | 上传用户：qingmeizhujiulyx

【摘要】

：

【作者】

：

张廉月

【出处】

：

电子科技大学

【发表日期】

：

2020年07期

【关键词】

：

协同过滤算法 Apache Spark Apache Flink 用户兴趣度公式时间权重

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着互联网建设的不断发展,加之网络视频运营商与传统电视媒体的相互合作,网络视频市场规模逐年增长。网络用户在享受形式和内容丰富多样的视频盛宴的同时,也在不断被大量冗余、无效的信息冲击。这些庞大的数据信息远远超出了用户能承受的程度,严重干扰了用户对自身所需信息的正确选择,导致信息利用率非常低,甚至带给用户困扰和反感。推荐系统作为解决“信息过载”问题的有效手段,这些年来在得以迅速发展的同时也面临着不少挑战,例如数据规模庞大以及算法设计复杂导致推荐算法的执行效率不高、数据稀疏性以及冷启动问题导致推荐效果不好等等。通过研究目前常用的几种推荐算法,分析算法各自存在的优缺点,旨在对这些算法进行改进和优化,从而改善系统推荐效果。首先,通过分析MovieLens开源数据集的数据结构特征,确定本系统的离线推荐功能采用协同过滤算法进行实现,底层计算引擎基于分布式大数据计算平台Apache Spark。通过扩展Spark的自动分区功能并自定义数据分块方式,减少集群中各节点间的数据传输以及笛卡尔乘积的计算量,保证数据在各节点上的均匀散列以及执行任务的均匀分布,最终使改进后的协同过滤算法比改进前的算法在执行速度上有明显提升,且预测准确度几乎不变。其次,针对用户在推荐系统中的评分行为,设计一种实时推荐算法。该算法基于电影标签信息,融合TF-IDF算法进行电影相似度的计算,同时引入时间权重影响因子,构造出用户兴趣度公式,基于该公式为用户产生实时推荐列表。在Apache Flink流式计算平台上进行算法仿真后的结果显示,该算法中的时间权重因子对实时推荐算法的准确率和召回率存在影响,且在时间权重因子λ取值为0.25,α取值为0.6时,两个指标取到极大值,即此时的推荐效果最好;基于Flink实现实时推荐算法的算法执行效率也比基于Spark Streaming有明显提升。最终,基于上述推荐算法,选用目前主流的应用开发框架以及相关组件实现了一套用户界面友好的电影推荐系统,整个推荐系统主要包括数据加载模块、离线推荐模块、实时推荐模块以及系统业务模块四部分。

其他文献

致密油储层微观特征及其形成机理——以鄂尔多斯盆地长6-长7段为例

鄂尔多斯盆地陇东地区长（延长组）6段和长7段富含大量致密油，但由于对其微观特征与成因缺乏深入了解，阻碍了该区致密油的有效开采。为此，根据岩石孔隙铸体薄片、场发射扫描电镜等技

期刊

微观特征形成机理储层致密油鄂尔多斯盆地microscopic characteristic formation mechanism reservo

植物未减数配子及其应用研究进展

期刊

未减数配子形成鉴定遗传效应应用植物Unreduced gameteFormationIdentificationGenetic effect

鄂尔多斯盆地东部奥陶系古岩溶型碳酸盐岩致密储层特征、形成机理与天然气富集潜力

目前鄂尔多斯盆地东部古岩溶型碳酸盐岩储层的研究相对薄弱,因此开展奥陶系古岩溶型储层形成机理与天然气富集潜力研究可为天然气储量的发现和开发前景评价奠定基础。通过对

期刊

物性下限天然气富集古岩溶储层奥陶系鄂尔多斯盆地东部lower limit of physical properties for effective r

金缕梅亚科ITS序列分析及其系统学意义

根据金缕梅亚科22属(活塞花属Embolanthera除外)代表种的nrDNA ITS序列数据构建了分子系统树.结合形态解剖证据,金缕梅亚科可分为3个族,即①木族Loropetaleae Zhang trib.nov

期刊

金缕梅亚科NRDNAITS系统发育Hamamelidoideae ITS sequence Phylogeny

赤Bo属的胚胎学研究

首次描述了葫芦科赤Ｂｏ属植物生活史的主要过程以及胚胎学的重要特征，它们是：腺质绒毡层，胸质分裂同时型，小孢子四分体四面体型和等面体型，花粉粒散发时具两细胞，双株被、厚株心，蓼型胚

期刊

赤Bo属胚胎学葫芦科Thladiantha Embryology Cucurbitaceae

违法信访刑法规制疑难问题研析

信访制度是我们党发扬人民民主、接受群众监督、维护群众权益、巩固执政基础的重要政治制度,在国家治理体系中占有独特地位,具有政治参与、权力监督、权利救济、化解矛盾功能

期刊

刑法规制寻衅滋事罪敲诈勒索罪疑难问题随意殴打寻衅滋事行为聚众冲击国家机关罪网络诽谤聚众扰乱公共场所秩序罪妨害公务罪强拿硬要定罪处罚聚众扰

评《论劳动平等》

收到老友荣兆梓教授的新著《论劳动平等》，煌煌40余万言，粗读一过，尚未掩卷，就接到他的电话，殷殷嘱我写序。但该书体大思精，需要多花时间，认真研读，匆忙之间，岂敢贸然作序，只能写一点初

期刊

劳动平等劳动力劳动市场市场分析

杉木雄性不育株与可育株小孢子囊发育的电镜研究

杉木雄性不育属“无花粉型”，败育从无也原细胞押分体时期、中层细胞增生，压迫小孢子母细胞，使之养分更加缺乏并引起减烽分裂异常。其表皮层和药室内壁细胞中具大量蛋白体，影响了

期刊

杉木雄性不育侏雄性可育株小孢子囊发育Cunninghamia lanceolata Male sterile plant Male fertile

直肠活检对过敏性肠炎综合征是必要的吗？

直肠活检对过敏性肠炎综合征是必要的吗？（ＭａｃｌｎｔｏｓｈＤＧ．ＥＸＣＭｅｄ［ＦＳｅｃｔｉｏｎ６］１９９３；７７：４３）许多医生对过敏性肠炎综合征（ＩＢＣ）患者进行直肠活检以便排除结肠黑变病和胶原性或显微结肠炎。为了确定常规直肠活检对ＩＢＣ的价值，８... Rectal bi

期刊

结肠黑变病胶原性直肠活检综合征

MicroRNA-199a-5p和HIF-1α在慢性阻塞性肺疾病上皮细胞中的表达及相关性

目的研究慢性阻塞性肺疾病(COPD)患者经肺泡灌洗获得上皮细胞中MicroRNA-199a-5p和缺氧诱导因子(HIF)-1α的表达水平,探讨其与疾病分期和严重程度的相关性及两者间的表达关系

期刊

慢性阻塞性肺疾病肺泡灌洗上皮细胞MicroRNA-199a-5p缺氧诱导因子chronic obstructive pulmonary disease

基于Flink的电影推荐系统的研究与实现

其他学术论文