【摘 要】
:
推荐系统面临数据稀疏性和冷启动问题,在大数据时代的背景下,提高用户获取信息的效率特别重要。本文以大数据环境下推荐系统的多源数据融合分析问题为背景,设计基于容器技术 Doc
论文部分内容阅读
推荐系统面临数据稀疏性和冷启动问题,在大数据时代的背景下,提高用户获取信息的效率特别重要。本文以大数据环境下推荐系统的多源数据融合分析问题为背景,设计基于容器技术 Docker、大数据平台 Spark和 Hadoop的多源数据融合模型,并实现协同过滤推荐算法的并行化设计。将自动编码器和协同过滤推荐算法结合起来,提高隐式反馈中 To p-N推荐的准确率。具体工作内容可以概括为: 1)提出多源数据融合的模型。利用用户在互联网(包括微信,微博,网站等)中访问的数据、数据库数据和日志数据等,提出统一显式与隐式反馈模型(UEIFM),通过对可观察用户选择行为的隐式用户反馈数据和评分等显式反馈数据,将项目推荐问题转化为优化问题,以提高推荐的准确率。 2)优化基于模型的协同过滤算法。在潜在因子模型的基础上优化基于分布式和迭代计算的并行模型,有效地实现矩阵分解算法的并行化。并提供基于Spark平台的实现,以处理大规模多源数据。 3)提出结合自动编码器的协同过滤框架—协同自编码器(CF-AE)。针对协同过滤算法中的数据稀疏输入的问题,设计自编码网络来学习的用户和项目之间的复杂关系,进而得到协同自动编码器框架。 最后,利用公共数据集 Movielens验证模型的有效性,并对比其他算法来评估模型的准确性,有效解决推荐系统中数据的稀疏性问题。通过大量的对比实验验证 UEIFM模型及并行化实现的有效性。使用自动编码器和矩阵分解方法,进一步提高推荐的准确性。在大数据平台下利用分布式并行化方法,解决当前推荐系统面临的可扩展性问题。借助云计算平台,提高系统和算法的鲁棒性。
其他文献
随着全球信息化的发展,人们对条码技术的需求层次不断提高,尤其是需要在有限的面积上表示更多的信息量,这就要求条码具有高密度、大容量和高可靠性等特点。在这种需求下,二维条码
建立完善的军队作战心理风险评估系统,对瞬息万变的国际战略环境和错综复杂的作战方式采取积极的应对措施,有利于提高军队在高科技多维环境下的作战能力,进而为国家经济发展
随着软件开发从传统的结构化开发到面向对象的开发过程,以及最近提出的模型驱动的架构开发,对软件测试产生很大的影响,同时也对软件测试的研究与实践带来新的挑战。以构件系
本文首先分析了目前常用的各种情感特征在特定人情感识别中的作用,然后通过分析说话人个体差异对常用情感特征所产生的影响,探求消除或者削弱这种影响的方法,并最终提出了LFP
挖掘关联规则及规则的更新是数据挖掘领域的一个重要研究方向。目前已经提出了许多用于高效地发现大规模数据库中关联规则的算法,这些算法都有各自的特点。基于不同的关联规
随着Intranet/Internet技术的日益成熟,越来越多的用户开始采用基于Web技术实现自己的信息系统建设,同时更多用户都把注意力转移到电子商务/电子政务上,用户已经发现,他们基于Int
随着新型网络应用的不断涌现和用户数量的迅速增长,Internet的流量正急剧增长,越来越严重的拥塞问题暴露出来。Internet中的拥塞控制对保证Internet的稳定性具有十分重要的作
本文提出广域网分布式媒体集群,并研究它的设计与实现。相比传统媒体集群,这种集群的结构更复杂,但是能够克服传统媒体集群的局限性,提供质量好、容量大、性价比高的解决方案
本论文通过对SIF和EMIF的深刻解读,结合重庆市北碚区的网络平台状况,教育管理信息化现状,进行了EMIF的应用研究,具体工作主要有以下几个方面: 本文对国外教育管理信息系统
随着多媒体时代的到来,越来越多的图像被广泛的使用,基于内容的图像检索(CBIR)技术成为近年来的一个研究热点。另一方面,由于信息的复杂多样,对其内容的描述缺乏统一标准,这