【摘 要】
:
随着互联网与智能移动设备的普及,各类应用平台的层出不穷引发了数据规模的爆炸式增长,在海量的产品中实现精准投放成为互联网平台获益的关键。提前对用户下一次的点击行为进行预测就显得尤为重要,点击率预测任务因其可用于评估用户点击产品的可能性的特点,目前已广泛部署在许多在线推荐和广告平台中。针对点击率数据特征学习的模型可分为两类:以学习线性特征组合进行预测的浅层模型(例如,梯度提升树),以及通过对复杂的稀疏
论文部分内容阅读
随着互联网与智能移动设备的普及,各类应用平台的层出不穷引发了数据规模的爆炸式增长,在海量的产品中实现精准投放成为互联网平台获益的关键。提前对用户下一次的点击行为进行预测就显得尤为重要,点击率预测任务因其可用于评估用户点击产品的可能性的特点,目前已广泛部署在许多在线推荐和广告平台中。针对点击率数据特征学习的模型可分为两类:以学习线性特征组合进行预测的浅层模型(例如,梯度提升树),以及通过对复杂的稀疏特征的相关性进行建模的深度模型(例如,Deep FM)。鉴于这两类单模型存在对数据单边学习的缺陷,最近的一些工作提出将这两种模型融合在一起进行预测。这些融合模型试图将第一类模型学到的中间结果输入第二类,或者依靠额外的集成技术融合两个独立训练的模型输出。这些融合方法并未有效地考虑不同模型可以捕获数据的不同特征的特点以及不同模型学习能力的差异,所以无法获得最佳的预测准确性。为了更好地对点击率数据特征进行学习,挖掘特征之间的交互关系,本文提出了两种新的融合机制:一种是基于联合训练的点击率预测融合模型,一种是基于残差学习的点击率预测融合框架。首先研究了基于联合训练的点击率预测融合模型。以多任务学习为依托的联合训练思想可以让融合模型同时关注到多种问题,进而使两种不同类模型在训练过程中共享信息的挖掘,提高预测准确率的同时解决单模型单边学习的缺陷。实验中训练目标函数同时作用于两类模型,并且对于损失函数的组合权值可进行手工调整,以获得最佳融合方式。三个数据集上的实验最终可以证明联合训练这种思想是可以应用在融合点击率预测单模型的工作中,并且该模型相对于其它现有的一些融合模型具有一定的进步性,点击率预测效果有所提高,但是仍有提升空间。其次研究了基于残差学习的点击率预测融合框架。本框架的关键思想是,首先训练一个模型(例如GBDT),然后让第二个模型(例如Deep FM)学习第一个模型无法准确预测的残差部分。该框架的合理性在于:由于这两种模型的预测能力是互补的,因此第二个模型更容易学习第一个模型无法很好地捕获的剩余输出。实验证明本文所提出的基于残差网络思想的点击率预测框架在预测准确性上具有大幅度的提升,并且更容易以更快的收敛进行训练。在三个公开数据集上的大量实验结果也证明了该框架的具备很好的提升效果。
其他文献
随着互联网的发展,越来越多的创作者在社交媒体上发表文章。如何从大量的多媒体文章中自动过滤出高质量的内容,是信息推荐、搜索引擎等系统的核心功能之一。然而,现有的方法存在三个局限性:(1)已存在的方法一般将内容建模为词序列,从而忽略了长距离单词依赖以及非连续短语。(2)由于现有的方法大多只关注文本内容,忽略了社交媒体平台上的内容具有多模态信息(如:文本、图像)。(3)它们依赖大量人工标注的数据来训练质
迁移学习是一种利用从源领域数据中提取的模型对目标领域数据进行辅助训练的方法,旨在解决分布不同以及标记缺失的目标领域训练问题。已有的迁移学习方法大多基于特征表示学习将不同领域中的数据特征映射到一个不变的特征空间,从而增强目标领域训练。在基于特征表示学习的迁移过程中,其目标函数通常需要从多方面来进行领域间的分布差异度量,常见的有边缘分布、条件概率分布以及类别分布。现有的方法对不同的特征差异度量采取固定
目标检测是目前计算机视觉中重要且基础的问题,有广泛的应用背景和实用价值。该任务是在输入图像中定位目标,并在图像中识别出每个物体的类别和位置。近年来,随着大规模数据的出现以及计算机算力的不断提升,具有强大数据拟合能力的深度神经网络方法逐渐成为目标检测研究领域中的主流方法。在现有的目标检测方法中,检测器实现了先进的性能。但是,当前目标检测模型对上下文信息和多尺度信息感知能力仍存在提升的空间。另外,现有
推理对于人工智能的发展起着至关重要的作用,早期的人工智能主要就是依赖于逻辑推理能力。而模糊推理作为推理概念的延伸,有着较为广阔的适用领域。在此基础上,直觉模糊集的提出又丰富了模糊推理的内涵。以往的普通模糊集在表达具有模糊性的信息上具有局限性,而直觉模糊集在表达这样的信息有着普通模糊集所无法比拟的优势。目前在模糊推理领域上主流的算法有,CRI算法,全蕴涵三Ⅰ算法等。但是这些算法局限于普通模糊集,应用
大规模人群疏散仿真技术能够对行人的运动行为模式进行分析、模拟以及预测,在一定程度上减少了公共安全隐患。办公楼、商场等大型建筑物内普遍设置有疏散标志等辅助设备,这些设备在紧急情况下可以为人群提供路径指引和疏散信息,从而提高疏散效率,由此研究可行的受引导人群疏散仿真(Guided Crowd Ev acuation)方法具有重要的理论和现实意义。当前受引导的人群疏散仿真方法较少考虑行人的情绪以及情绪在
高光谱图像具有很高的光谱覆盖范围,可以准确地识别地物信息,但是拥有丰富光谱信息的同时高光谱图像空间分辨率普遍较低,因此高光谱与多光谱图像融合成为了遥感图像处理的重要课题之一。目前深度学习在图像领域获得了不错的成果,在遥感图像融合问题上同样表现优异。然而,现有算法忽略了两个问题:1)原始高光谱图像和多光谱图像之间存在巨大尺度差距,2)对光谱信息重建的关注不足。本文对于上述问题提出了针对性的解决方案,
显著性目标检测的目的是从某个给定的场景中提取出最吸引人注意的物体,该研究不仅在图像分割、目标识别等领域有所贡献,还被应用于无人驾驶、目标追踪等高科技领域。目前提出的显著性检测算法大多基于2维RGB图像和3维RGBD图像。随着4D光场相机的蓬勃发展,显著性目标检测开始向4D空间拓展。早期的光场显著性检测算法主要依赖人工提取特征信息,后期随着深度学习网络的发展,研究者们开始尝试搭建深层神经网络检测光场
当前,深度学习技术迅速发展,在计算机视觉、自然语言处理、语音识别等领域取得了举世瞩目的成果,但是大多数深度学习模型的训练依赖于大量标注样本。在现实情景中,某些样本的标注非常困难,而较少的样本也不足以表达某个类别的特征分布。然而,人类可以在见过极少的样本后快速地识别出属于该类别的新样本,研究者们从人类这种快速学习的能力中受到启发提出了小样本学习问题,其目的就是要学习一个具有良好泛化性能的模型,能够在
随着计算机信息技术的发展,智能安防领域的相关技术也得到了很大的进步。在智能监控系统中,行人再识别算法受到广大科研人员和科研机构的密切关注。但是,行人再识别技术在现实场景应用的过程中面临着一些挑战。虽然基于有监督学习的行人再识别技术得到了巨大的提升,但是使用有监督学习的方法进行模型训练需要大量已标记的数据,这增加了人工成本和时间成本。由于在现实场景中直接获得的行人图像是无标签的,所以直接基于无标签数
随着计算机视觉领域的相关技术的快速发展,人体解析在该领域中的地位也显得愈加重要,其具体任务是为图像中的人物进行逐像素的分类标注,将图像中的人体划分为带有语义信息的不同区域,又被称为服装解析。本文研究了利用基于特征融合的方法处理人体解析任务,首先提出了多尺度特征融合网络MFBNet,创新性地为其引入了上下文嵌入模块,用于捕获丰富的上下文信息从而提高解析精度;另外,为了针对性地提高模型在单人解析任务上