基于多推荐算法融合的视频实时推荐系统的设计与实现

来源 :东南大学 | 被引量 : 5次 | 上传用户:netboy1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
21世纪社会文娱产业得到了快速的发展,而视频作为一种生动形象的信息载体更是受到了人们的青睐。快速增长的视频业务带来的爆炸式视频数据规模扩张使得用户在浏览视频时显得无所适从,并且随着用户的急剧增长,企业想在短时间内让用户找到兴趣相符的视频也愈发的艰难。而推荐技术的出现正是为了解决信息过载的问题,但传统的推荐系统存在一些不足之处:首先,传统推荐系统大多是在单机上部署或基于Hadoop架构的MapReduce部署,当数据量较大时单机部署的系统无法实现较大的吞吐量,而基于Hadoop的MapReduce的部署是基于持久存储的计算,该模式对有迭代需求的推荐算法运算时由于频繁的存取磁盘无法保证有效的运算效率。其次,传统的推荐系统虽然能够给用户进行个性化的推荐,但没有考虑到用户兴趣会随时波动的情况,因此未对用户实时反馈信息进行推荐模型的增量更新。再者,传统系统的推荐列表通常是由独立的算法计算而来,未充分考虑各类推荐算法的短板。为解决上述问题,本文主要针对视频个性化推荐的实时推荐特点,借鉴Lambda架构思想,构建一套基于Spark平台的通用的离线、近线和在线的推荐系统。基于上述系统实现了基于内容特征相似推荐模型、基于视频评分数据的协同推荐模型,并提出相应的增量模型来提供实时推荐功能。为了兼顾用户长短期偏好提高实时推荐的准确性,本文提出了基于用户偏好整合的推荐算法。最后本文给出对各种推荐算法推荐结果的融合策略弥补了各自推荐算法的短板。主要工作内容有:首先,本文研究了并行计算框架Spark的计算原理和实时流数据处理组件Spark Streaming的处理机制,分析了数据采集框架Flume和Kafka各自擅长的场景和业务流程,结合支持海量数据的分布式存储,随机查询速度较快的HBase。在此基础上构建一套基于Spark平台的通用推荐计算模型,使得各种支持增量的推荐算法都能独立运行在该模型上。其次,本文研究传统的内容推荐和协同推荐算法实现流程,使用TF-IDF技术从视频的描述信息和标签数据中抽取出视频特征向量,依据这些向量计算内容之间的相似度给出基于内容推荐的推荐列表。本文通过对用户评分矩阵数据进行ALS(交替最小二乘法)矩阵分解得到用户和内容的特征矩阵,并通过评分预测给出协同推荐列表,此外本文还给出了上述基于内容推荐和基于用户协同推荐的实时更新模型。再次,本文提出了一种基于用户偏好整合的推荐算法,该算法对用户的历史反馈数据进行长、短期分类,单独计算其长、短期的历史偏好,对用户的实时数据进行在线处理得出其实时偏好,最后引入时间因子衰减来整合历史和实时偏好得出用户的最终偏好向量。此外,本文仔细研究上述算法优缺点,结合系统不同的推荐场景本文通过对上述多种算法结果按照不同权重的进行融合来弥补各类推荐算法的缺点。最后,通过部署Hadoop、Spark等分布式软件,借助Movielens数据集实现了相关的理论和研究工作,设计并开发一套实时推荐系统,并在此平台上给出上述算法的实现,实验结果表明本套系统能满足视频实时推荐的时效性需求并且有效提高了推荐系统的准确率。
其他文献
本文在采用Solidwokrs软件三维建模的基础上,对Ф2200圆锥破碎机的铸件产品重量计算的原理和过程进行了研究。从而对原图纸设计重量及铸造毛坯重量进行校对,明确了铸件产品的
翻译作为人类社会迄今为止最为复杂的活动之一长久以来在社会各个领域之中扮演着重要的角色。翻译的基础是语言,是人类所独有的一种认知功能。因此,要探索翻译之谜,认知是研究重点。人脑翻译不同于机器翻译,机器只能生成一个最优译文;而一位译者能将一个原文翻译为许多不尽相同的译文。且不同的译者产生出的译文也都不相同,有些译文是目标语中未曾出现的表达,丰富了目标语的词汇和表达,有些脱离了原文的束缚,传乎其神。众多
我国《全日制美术新课程标准》指出:“通过美术教学,培养学生的观察能力、形象记忆能力、想象能力和创造力。”在美术教学中,培养学生的创造力,是小学美术学科的教学目的之一,也是素质教育的一个重要方面。爱因斯坦曾说过:“创造力比知识更重要,因为知识是有限的,而创造力改变着世界的一切。”显然,创造性不仅被看作是艺术,也是生活的一种最高境界和追求。因此,笔者认为对学生创造力的培养是美术教育的重中之重。针对美术
记者:在刚刚结束的亚洲PKI联盟2008年会员大会和理事会会议上,卢时彻先生担任亚洲PKI联盟首届主席,这对于亚洲和中国的PKI的发展意味着什么?有何意义?荆继武:作为中国PKI论坛
心脏是人体最重要的器官,它的跳动规律能够反应人体状态是否正常。心脏的跳动会产生心电信号,将信号提取出来就可作为观测心脏状态的依据。所以心电信号读出电路一直是研究热点。近年来便携式心脏监护系统受到人们的高度关注,因此研究和设计高性能的心电信号读出电路具有重要的意义。本论文主要完成了用于心电监护系统的心电信号读出电路的研究与设计,该电路包含五个方面的模块,分别是系统主放大器、电荷泵电路、导联脱落检测电
当今影视产业的蓬勃发展,相当一部分得益于表演者的精彩演绎。随着信息传播技术日益发展,传播的速度、范围和方式快速增进,表演者合法权益的保障亦愈益受到挑战,肆意复制和发行表演者作品的行为日渐增多且难以控制。正是在这样的背景下,在经历了漫长的国际谈判后,《视听表演北京条约》(以下简称《北京条约》)的缔结无疑具有里程碑式的意义。适逢我国著作权法修改之际,如何规定视听表演者的权利转让,平衡各方的利益,将是本
作为中国传统文化宝库中的重要组成部分,中国古典诗歌的独特之处在于精心选择的意象。李白是中国唐代最杰出的诗人之一,被尊称为“诗仙”。他的诗歌蕴含着丰富的文化内涵,题材广泛,意象丰富,在中国古典文学作品英译领域内,深受国内外学者的青睐。通过对现有研究分析发现,对李白诗歌中的意象研究,目前主要集中在单一意象上,鲜有人对某一类诗中所有的意象进行研究。随着认知科学的发展,认知诗学应运而生。它利用认知科学提供
“三疑三探”教学法是以培养未来社会所需要的创新型人才为宗旨,以培养学生适应未来社会应具备的基本能力为目标,主要通过疑探结合等相对固定的教学环节,促使学生学会主动提