【摘 要】
:
移动互联时代的网络规模快速增长和业务广泛覆盖面带来了“信息超载”问题,过量消息同时呈现增加了用户获取所需信息的成本。尽管传统搜索引擎一定程度上解决了数据检索需求,但仍然无法满足不同时期、不同背景、不同目的用户的个性化信息诉求,从而不能真正高效地处理超载问题。推荐系统作为一种有效的数据过滤手段,是实现个性化推送服务,帮助用户提高决策效率,从而解决信息超载问题的核心方法。协同过滤一方面作为推荐系统的关
论文部分内容阅读
移动互联时代的网络规模快速增长和业务广泛覆盖面带来了“信息超载”问题,过量消息同时呈现增加了用户获取所需信息的成本。尽管传统搜索引擎一定程度上解决了数据检索需求,但仍然无法满足不同时期、不同背景、不同目的用户的个性化信息诉求,从而不能真正高效地处理超载问题。推荐系统作为一种有效的数据过滤手段,是实现个性化推送服务,帮助用户提高决策效率,从而解决信息超载问题的核心方法。协同过滤一方面作为推荐系统的关键算法在面临稀疏数据时性能会急剧下降,另一方面超过95%稀疏度的数据在实际应用中又广泛存在。因此,如何缓解数据稀疏性导致的性能退化问题是目前推荐系统面临的主要挑战之一。近年来,一些研究人员尝试应用迁移学习方法来缓解传统单领域协同过滤的数据稀疏性并取得了重要进展。迁移学习是解决目标任务标注数据稀缺的基础方法,目前已经得到学术界的广泛关注,但其研究仍处于富有挑战的阶段。本文面向领域间无用户和项目重叠的跨领域推荐任务,系统性研究了基于评分模式分享的迁移学习在跨领域推荐中的问题挑战及其解决方法。迁移学习中,欠拟合、过拟合、不适配、非完备、负迁移等关键问题与挑战交错叠加给推荐系统的研究带来了全新的困难。首先在单源评分模式迁移中,存在目标领域的欠拟合问题;其次,在多源迁移中存在目标领域过拟合问题;不适配问题是指迁移矩阵无法自适应适配源领域数据的规模和特征,导致在源领域发生变化时,迁移学习与源领域数据的不适配问题;非完备是迁移学习中,源领域数据非完备的情况。在实际应用中,含有空白项和缺少条目的数据普遍存在,这些数据都属于非完备数据;负迁移是指源领域知识对目标领域学习任务产生副作用;本文重点面向欠拟合、过拟合、不适配、非完备、负迁移等问题挑战,分析原因并设计针对性学习方法,主要创新点包括:1.针对非完备问题,提出非完备正交非负矩阵三分解方法。通过将已有的正交非负矩阵三分解方法扩展到输入数据非完备的情况,克服了现有方法中的数据完备性限制,将跨领域推荐中迁移学习的源领域选择从完备域扩展到非完备域,扩大了源领域数据的可选范围和可用数据规模。2.针对不适配问题,提出低维表征潜在因子选择算法。根据源领域数据的规模和特征,启发式学习适配源领域的迁移矩阵,解决了以往跨领域推荐任务中,由于预设固定的迁移矩阵规模导致迁移学习与源领域数据不适配的问题。特别是当源领域发生变化时,算法帮助迁移矩阵自适应的适配变化后的源领域数据,克服了由迁移矩阵中数据平均化趋势引起的评分模式表达性衰减。3.针对欠拟合和过拟合问题,提出正则化多源迁移模型。通过迁移多个源领域评分模式,解决单源迁移模型的欠拟合问题。通过在目标领域适配中添加正则化约束,降低多源迁移中的过拟合风险,使多源迁移模型更具鲁棒性。4.针对负迁移问题,提出迁移学习后的修正学习步骤。为了实现修正学习,本文提出跨领域推荐场景修正模型,并随后扩展到多梯度层修正模型,来挖掘目标领域特有的画像、元数据、上下文、类别、属性等信息。通过对迁移学习结果中不满足目标领域特征的评分进行修正,克服迁移学习产生的负迁移现象,提高跨领域推荐的评分预测精度和推荐的准确度。5.针对某些领域内数据不含可用场景知识的情况,提出潜在因子修正模型。通过扩展已有非负矩阵分解方法为局部适配的非负矩阵分解方法,来根据目标领域已有评分,学习影响目标领域数据分布的评分潜在因子,然后对迁移学习结果依照评分潜在因子的数据分布表达进行修正学习。
其他文献
双足机器人如何实现高效、稳定的行走,一直以来都是机器人领域研究的热点之一。本文所研究的仿鸵鸟机器人属于双足机器人的一种,与传统的双足机器人相比,其最大的特点是没有
本课题基于聚乙二醇1000维生素E琥珀酸酯(TPGS)和维生素E琥珀酸酯(VES)改性壳寡糖(CSO)的优良特性,以及RGD序列多肽可以特异性靶向至整合素αvβ3受体高表达的肿瘤组织的特点,成功合成VES-g-CSO和TPGS-RGD。以VES-g-CSO、TPGS和TPGS-RGD为载体材料,选用紫杉醇(paclitaxel,PTX)为模型药物,制备了PTX@VES-g-CSO/TPGS-RGD
本文以课题组自研并自行装配调试的五自由度拟人机械臂为研究对象,对多自由度机械臂轨迹规划涉及到的相关问题进行研究,主要包括机械臂的数学模型建立与运动学动力学分析、轨
海气相互作用是影响台风强度和结构的主要物理过程之一。本研究采用高分辨率的WRF-POM海气耦合模式以及真实的海洋和大气条件,成功地模拟了1307号台风Soulik与海洋相互作用的
随着我国直流输电技术的飞速发展,我国电网逐渐形成了交直流混联的格局。高压直流输电以其电压等级高、输送距离远、输送容量大的优势,解决了我国负荷和能源分布不均匀的问题。永富直流是我国建设的第一个省内直流输电系统,其逆变侧电源较弱,为弱交流系统。因此当其逆变侧交流系统发生故障时,很容易引发直流输电系统换相失败。换相失败作为直流输电系统的一种常见故障,会引起直流电流和直流电压发生突变,给直流系统的安全稳定
工业企业作为实体经济的主战场,七十年的快速发展促使我国工业经济规模达到全球第一。但是相比于发达国家,依旧存在创新不足、产品附加值低、品牌影响力有限、资源利用率低、
随着机器学习不断发展,其应用领域从单纯图像识别延伸至医学影像、目标定位追踪、故障诊断等领域;同时,工业领域装备大型化、自动化使传统故障诊断方法无法适应这一变化。在此背景下,本文以滚动轴承为研究对象,针对传统故障诊断方法特征提取困难、分类准确率低、分类时间长的三大难题,提出了基于改进粒子滤波与深度置信网络的故障诊断方法。本文首先对滚动轴承典型故障及其失效形式进行分析,得到故障信号特征频率计算公式。根
得益于纳米材料的精确加工和控制技术的飞速发展,金属微纳结构材料及其表面等离激元(Surface Plasmons,SPs)特性的研究,不仅是物理学研究者关注的热点,也成为当前能源科学、信息科学和材料科学及其交叉领域的热点问题。本文研究了表面等离激元亚波长传输和近场局域增强的特性及其调控,设计了高品质因子杂化等离激元谐振腔和高调制深度的可调谐石墨烯/等离激元光学调制器。具体内容包括:1、理论上设计了
人类自第二次工业革命以来,电话、电灯等被发明,进入了电气时代,随着时代的发展,人类社会已经越来越离不开电能。电连接件以不同的材料、不同的接触形式存在于日常生活的各个地方,且电接触涉及极其复杂的物理、化学、机械等过程。因此如何改善电接触界面的稳定性以及电气连接件的可靠性对于现代生活具有重大的意义。石墨烯自2004年第一次被发现以来,其优异的光学、电学、力学特性吸引了大批的科研工作者对其进行研究,在材
目标检测是计算机视觉的一个基础但又十分重要的任务。现阶段基于深度学习算法尤其是卷积神经网络的目标检测器成为了检测领域的主流。并且和基于传统特征提取算法的检测器相