论文部分内容阅读
在传统的监督学习研究中,学习对象与标记是一一对应的关系。然而对于现实世界中具有复杂语义的对象来说,其标记往往是弱的或者有歧义的。多示例学习是用来解决这一问题的框架。在多示例学习中,训练集由多个具有概念标记的包组成,每个包由一组示例来表达,而示例并没有对应的明确标记。多示例学习能反映现实任务的复杂性,已被广泛应用在药物分子活性检测、自然场景分类、文本分类和目标检测等领域。以往的多示例学习研究主要关注于区分包的标记而非直接检测包中关键示例,缺乏高效的正示例检测算法。然而在众多的多示例学习技术应用中,什么样的示例触发了相应的标记始终是一个值得关注的问题。例如,游戏道具推荐中,玩家的何种游戏行为触发了道具购买是运营商的关注的重点。本文结合目前存在的一些问题,对多示例学习进行了深入研究,从特定示例检测的角度做了如下工作:1.提出基于近邻重构的正示例检测算法。从多示例学习中经典的多样性密度算法出发,在负示例共享相同性质的假设下,利用负包的近邻负示例重构正包的负示例,通过排除法检测出正包中的正示例。在正示例检测框架下提出两种近邻重构方法,将多示例学习问题转化为简单的二分类问题,然后使用支持向量机算法来求解。通过在药物分子检测、文档分类和图像分类等不同任务上进行实验,验证了算法具有较好的性能和运行效率。2.将多示例学习应用到大规模虚拟商品推荐中。揭示了互联网虚拟商品推荐这一应用和多示例学习假设的特殊联系,即游戏道具推荐包含的复杂上下文相关性、长距离干涉和角色道具优先等问题。使用一种基于标记排序和特定示例侦测的快速多示例多标记学习方法对游戏道具个性化推荐系统进行建模。基于Spark分布式平台实现大规模推荐系统,在真实的游戏道具购买数据上进行实验,结果表明算法能够高效地处理千万级别的样本,且取得优于传统协同过滤算法的效果。