【摘 要】
:
作为两种重要的弱监督学习框,偏标记学习和偏多标记学习具有相似的特点,即每个示例的真实标签均被淹没在候选标签集合中。两者的不同点在于:1、对于偏标记学习,每个示例只有一个真实标签淹没在候选标签集合中。2、对于偏多标记学习,每个示例不仅具有多个真实标签,同时上述多个真实标签也淹没在候选标签集合中。偏多标记学习可以认为是偏标记学习的拓展,但是,相比于偏标记学习来说,偏多标记学习的真实标签数量未知,所以偏
论文部分内容阅读
作为两种重要的弱监督学习框,偏标记学习和偏多标记学习具有相似的特点,即每个示例的真实标签均被淹没在候选标签集合中。两者的不同点在于:1、对于偏标记学习,每个示例只有一个真实标签淹没在候选标签集合中。2、对于偏多标记学习,每个示例不仅具有多个真实标签,同时上述多个真实标签也淹没在候选标签集合中。偏多标记学习可以认为是偏标记学习的拓展,但是,相比于偏标记学习来说,偏多标记学习的真实标签数量未知,所以偏多标记学习更加困难。通过对特征空间应用降维算法也是一种偏标记学习的研究方法,现有偏标记降维方法旨在尽可能多的去除原有特征空间中的冗余信息。基于上述讨论,本文围绕偏标记学习算法、偏标记学习降维算法和偏多标记学习算法三方面展开研究。(1)针对现有偏多标记学习算法消歧过程中,指导消歧的结构信息模糊,导致消歧过程不稳定并产生累积误差的问题,提出一种基于语义差异最大化的偏多标记学习算法:在偏多标记学习中引入语义差异的概念,并通过语义差异最大化指导消歧过程。具体来说,首先根据示例间候选标签集合相交是否为空确定示例间的语义差异,然后将最大化整个训练集的语义差异作为优化目标,从而在偏多标记学习的消歧过程中引入语义差异作为指导信息。在人工数据集上,该算法在80%的情况下优于所对比算法;在真实数据集上,该算法在65%的情况下优于所对比算法。(2)现有偏标记降维方法均通过特征提取方法与基于平均消歧的近邻投票方法交替进行以达到降维目的,但是交替进行的两种方法会分别导致的降维后特征空间失去原有物理信息以及真实标签淹没在假阳性标签中的问题。针对以上问题,提出一种基于标签冗余和置信度传播的偏标记特征选择方法:该方法首先通过标签冗余衡量某一特征在特征空间中的相对重要性,并以此准确地剔除特征空间中的冗余特征,保留的特征依旧具有原来的物理信息,然后通过标签置信度传播的消歧方式,避免真实标签淹没在假阳性标签中,最终特征选择过程和置信度传播过程交替进行实现降维目的。实验证明了该算法的有效性。在人工合成数据集上,该算法在71%的情况下优于所对比算法;在真实数据集上,该算法在83%的情况下优于所对比算法。(3)目前有偏标记学习的相关学者将生成对抗网络成功应用到了偏标记问题的求解过程中,但是该算法中由于判别器同时承担判别任务和分类任务导致最终判别器无法收敛到最优分类器,针对这一问题,提出了一种基于三重生成对抗网络的偏标记学习算法:通过在原有二重生成对抗网络的基础上引入分类器,形成三重网络结构,将分类任务从判别器中分离并交由分类器处理,避免分类器因平衡收敛而无法收敛到最优分类器。在人工合成数据集上,该算法在60%的情况下优于所对比算法;在真实数据集上,该算法在70%的情况下优于所对比算法。
其他文献
为了尽可能的减少执法安全事故,提升公安机关的执法形象与执法公信力,以及执法办案效率,大力的推进公安大数据智能化建设成为了行业发展的迫切需要。依托于此需求,近年来,执法办案中心的人员定位管理系统逐步发展,智能手环的应用也趋于成熟,但始终摆脱不了嫌疑人员的行为无法记录,执法办案流程以及执法行为无法监管等行业痛点,且智能手环自身也存在成本过高、续航不理想、个人信息易泄露等缺点,如何在减少甚至不使用智能手
随着信息技术和互联网的发展,数据库管理系统作为基础平台软件,在信息系统中扮演日益关键的角色。目前,国内多个核心行业仍大量使用国外的数据库产品,存在重大的安全隐患。因此,在国际形势日趋复杂的今天,发展国产数据库,让更多应用运行在国产数据库产品之上已是当务之急。数据迁移是数据库国产化的重要举措,然而现有的数据迁移项目大多采用直接迁移的方法,未全面了解源数据库并根据迁移数据库间的差异完成迁移,这导致数据
现代电力系统中部署了大量的智能硬件设备,如智能电表等。智能设备在提供更多先进技术的同时,也给电力系统带来了很多漏洞,导致恶意窃电用户可以随时随地发动各种网络/物理攻击来窃取电力。窃电不仅给公共事业公司带来了巨大的经济损失,还可能引发火灾等事故,危害公共安全。所以,智能电网邻域网中窃电行为检测的研究目的就是及时发现邻域网中的窃电行为,并识别出所有的窃电用户。窃电用户识别的主要难点和挑战在于:如何设计
近些年来,随着区块链的技术越来越成熟、去中心化的思想被越来越多的人认可,出现了各种各样新且广为人知的场景,如:非同质化代币等等。未来区块链不仅仅只是一个去中心化的加密货币的载体,它也变成越来越多应用的载体。未来区块链承载的价值会越来越大,相应而来的,区块链上需要存储更多的数据来支撑它的价值。但是现有的区块链方案大多数都是针对于小型数据以及大型数据上链的解决方案。随着区块链在非交易场景以及其他场景中
区块链是在加密虚拟货币的应用基础之上兴起的一种分布式数据共享技术,在智慧城市、税务审计、金融科技等领域具有广阔的应用前景,为生产生活提供了弱中心化、高透明度、强公信力的统一数据平台。随着区块链应用场景的不断丰富,区块链的数据规模不断膨胀、检索需求持续增加且趋于复杂化。然而,现有的区块链平台往往只考虑单一的应用场景,采用粗粒度数据组织方式,普遍存在数据可用性差、可搜索性差、检索效率低等问题,已较难对
区块链技术作为推动信息互联网向价值互联网转变的核心技术,广泛应用于金融、供应链和电子政务等重点行业。垂直行业信息融合与价值传递是充分激活区块链内生价值属性和潜力的重要一环。目前,区块链呈现布局碎片化、数据隔离化特征,难以实现垂直行业信息融合需求,使得信息价值阻塞,造成数据孤岛问题严重。然而,各行业区块链系统呈现差异化需求、定制化设计和异构化平台等特征,使得跨链数据交互与价值传递难以实现。现有区块链
知识图谱是一种采用图结构化的方式存储现实世界中代表事物的实体以及实体之间的关系,为海量的非结构化互联网信息数据提供了一种行之有效的处理方式。以知识图谱作为数据来源的问答技术成为当今AI领域的热门研究方向,但目前基于知识图谱的智能问答技术在简单问题上的问答效果较好,却难以应对包含多个关系的复杂问题,缺乏复杂问题在知识图谱上的推理能力,大大降低了实际问答效果。本文对基于知识图谱的多跳推理问答技术进行研
随着数据的爆发式增长以及计算机硬件的快速发展,基于数据驱动的深度学习技术得到了迅速发展,近年来已经在机器学习领域占据主导地位。深度学习被广泛应用于各个领域,如自动驾驶、机器翻译、目标检测、医疗诊断等,并且取得了巨大的成功。但模型的训练需要大量的数据资源和计算资源,因而用户往往会将训练过程外包给第三方,或者从不完全可信的服务提供商处获得预训练模型。由于深度学习模型缺乏可解释性,深度学习模型在其生命周
随着机器学习技术应用快速发展,“机器学习即服务”这个概念应运而生。在该模式中,服务方拥有大规模数据以及专家级的训练算法,进而可以得到高质量模型为用户提供可靠的数据推理预测服务。已有的研究主要专注于“机器学习即服务”过程中的隐私问题,实现对数据模型生成、用户数据、推理结果以及推理过程的机密性保护。然而,在“机器学习即服务”的过程中,出于某些特定的原因,恶意服务提供商可能提供一个低质量的模型,导致用户
随着社会经济的日益发展,在日常生产生活中产生了大量的多变量时间序列数据。由于多变量时间序列数据长度可变、变量维度高、变量耦合并且时间依赖长。因此,对多变量时间序列分类研究极具挑战性。近年来,为更好地表征多变量时间序列和寻求分类性能的突破,不断有学者提出新的方案来解决多变量时间序列分类中存在的各种挑战,并取得了骄人的成绩。然而,这些方法仍然不能很好地刻画多变量时间序列的内在特征,从而无法获得更好的分