【摘 要】
:
K均值(K-means)算法是一种研究如何将具有相似特征值的数据划分到相同组内的典型基于中心的聚类分析算法。它在模式识别、智能商业、图像分割和生物信息检索等诸多领域都发挥着巨大的作用。随着近年K-means算法在单数据集聚类中的成功应用,专家学者开始将关注点转移到如何将协议扩展到分布式多数据集下进行联合K-means聚类。多数据集下的联合聚类作为一种分布式下的机器学习范式,它的出现和发展为分布式数
论文部分内容阅读
K均值(K-means)算法是一种研究如何将具有相似特征值的数据划分到相同组内的典型基于中心的聚类分析算法。它在模式识别、智能商业、图像分割和生物信息检索等诸多领域都发挥着巨大的作用。随着近年K-means算法在单数据集聚类中的成功应用,专家学者开始将关注点转移到如何将协议扩展到分布式多数据集下进行联合K-means聚类。多数据集下的联合聚类作为一种分布式下的机器学习范式,它的出现和发展为分布式数据集下的联合K-means聚类分析方案提供了可能性。例如,两家地方性银行通过联合聚类得到客户的满意度、忠诚度和投资理财倾向等关联信息,这些信息能为后续联合风控和精准推荐提供强力支持。虽然联合聚类技术极大的促进了社会的发展进步,但是在分布式下多数据集间联合聚类的过程中用户敏感数据的隐私和安全却无法得到保障。尤其在多参与方联合聚类的场景中,保障数据主体的隐私安全就显得格外重要。安全多方计算(Secure Multi-Party Computation,SMPC)技术作为一种密码学中通用的安全技术体系,它能在不暴露数据输入输出方信息的前提下对多方数据进行分布式联合安全计算。因此,借助SMPC组件和方案来解决上述隐私泄露问题。尽管目前已有多种隐私保护的K-means聚类算法,然而当目标数据集的规模很大时,大多数现存算法的计算开销和存储开销都非常庞大。该特性对服务器的存储和计算性能带来了巨大的挑战,这也导致人们很难将算法直接应用在大规模数据集上。受压缩的K-means明文算法的启发,在本文中提出了一种半诚实模型下隐私保护的压缩K-means算法(Privacy Preserving Compressed K-means,PPCKM),旨在不侵犯数据主体隐私的条件下快速完成大规模数据集上的聚类。本文的研究内容主要分为以下三点:(1)针对大规模数据集下联合K-means聚类算法中隐私保障差且计算效率低的问题,基于对二进制码学习方案的研究,提出了名为PPCKM的具有隐私保护以及压缩特性的K-means聚类算法。该算法可以大大降低存储开销和计算压力,达到在任意划分的大规模联合数据集上进行高效的K-means聚类计算的目的。(2)将PPCKM方案进行划分,提出了安全优化经验损失、安全更新聚类中心、安全更新聚类结果和安全二进制码学习这四个安全计算模块,最后将模块组合构成了完整的大规模数据集下隐私保护的K-means聚类算法,并对计算模块和PPCKM算法进行了严格的安全性证明。(3)在标准测试数据集上对提出的PPCKM算法及相关组件进行仿真实验,并对算法可行性和效率进行评估。实验结果表明,较现有隐私保护的K-means算法而言,本文提出的PPCKM算法在大规模数据集的联合聚类在适用场景广泛且计算效率优异。
其他文献
用户异常用电行为引起的非技术损失问题长期以来困扰着各国的电力公司,许多国家因此遭受了巨大的经济损失,学术界和工业界广泛关注对用户异常用电行为的高效、精准检测。深度学习算法可以用来检测这种异常用电行为,但其训练过程过于复杂,如今“机器学习即服务”成为一种新的趋势,服务提供商拥有一个已经训练好的神经网络模型,用户提供用电数据,服务提供商进行推理预测后将检测结果返回给检测方。考虑到服务提供商将会得到用户
传统雷达系统有研发成本高、硬件替换复杂、迭代开发周期过长等局限性。雷达数字化样机平台是采用软件化雷达的思想,来解决传统雷达开发周期长、组件难复用、运行模式单一的缺点。在平台中,所设计雷达系统可以有效地减少开发周期,同时还保证雷达的可靠性、可维护性。计算中间件在软件化雷达中起到了统一算法组件、加速运算、可复用、解耦合的效果。结构上,通过对雷达系统的分层,可以满足雷达系统快速开发、快速迭代、快递替换的
深度神经网络作为人工智能的核心近年来得到了前所未有的发展,在文本、语音、图像等方面均取得了优越的表现。同时,相关的安全问题也随之出现,其中自然语言处理领域的对抗样本问题受到了广泛关注。文本对抗样本即指通过对原始文本序列有目的地添加细微的扰动,导致深度神经网络模型对其误分类,使经过良好训练的模型产生错误的预测结果。在现实世界中,对抗文本广泛存在于钓鱼网站、邮件检测和情感评论中,并且对抗样本又都是多样
现实生活中频繁的信息交互依赖于社交系统的快速发展,这些复杂的社交系统在科学界被抽象化表示为具有特殊含义的社交网络;同时,这些社交网络又为网络科学的兴起和发展提供了原生动力。社团是社交网络的一个重要的结构属性,对网络中的社团结构的挖掘有助于科学家更好的理解社交系统的组成原理和功能,有利于挖掘网络中蕴藏的潜在信息,以及有助于对整个社交系统的发展趋势进行合理的预测。然而,人们频繁地参与社交活动必然会导致
矩阵计算在机器学习中有着重要作用。在机器学习算法中,最近邻查找、神经网络、多维图像处理和线性方程组求解等问题都涉及到矩阵计算。而算法的应用需要数据来支撑,在数据敏感的生物医疗、金融数据等领域,使用传统的集中式训练,将数据汇集至服务端,或者是客户端将明文查询指令发送至服务端,会泄露数据与查询隐私。因此,为了解决机器学习数据与模型隐私问题,需要使用隐私保护机器学习机制。在隐私保护机器学习中,安全矩阵乘
极化SAR图像地物分类任务是遥感数据分析中的热点话题。传统的极化SAR分类方法大多是基于目标的极化特性与数据的散射特性展开的。近年来,随着计算机技术的发展,深度学习在计算机视觉领域展现出了优异的性能。受此启发,研究人员将深度学习方法用于解决极化SAR地物分类问题,得到了较高的分类精度。然而将深度学习的方法应用于极化SAR数据时,面临着下面的问题。首先,不同于光学图像,极化SAR数据的表征向量往往维
随着全球化进程的加速,传统的地面网络难以覆盖所有区域,覆盖范围广、不受地域限制的卫星通信逐渐受到关注。随着微电子技术的飞速发展,微纳卫星越来越有吸引力,微纳卫星具有部署快、成本低、应用灵活等优点,通过将微纳卫星构建成一个网络,可以进一步发挥它们在执行各种空间任务方面的优势。但是,微纳卫星网络的空间环境复杂多变,卫星节点的星上资源有限,网络连通对于保证微纳卫星网络的正常运行至关重要,因此设计健壮的拓
协作通信作为物理层安全中的重要技术,已经成为目前解决无线通信安全问题的有效手段之一。同时随着社交网站和社交应用的蓬勃发展,物理通讯设备的拥有者之间存在着不同的社会关系无疑会对协作通信中参与者的策略造成影响。因此,将社交属性引入协作通信技术中对于提高系统的安全性能具有重要的应用意义。尽管已经有许多学者结合社交属性和物理层安全技术,给出具有社交意识的协作方案。但是这些方案中节点选择策略的理由不充分,且
随着信息化的高速发展和智能终端设备的全面普及,传统的身份认证方式已经无法满足人们对易用性和可扩展性的需求。与此同时,在人工智能和生物识别技术的不断进步下,基于生物特征的身份认证方式逐渐成为主流。其中基于声纹的身份认证系统在诸多特殊的应用场景下为用户带来了极大的便利。然而,由于声音易被复制和模仿,因此声纹认证系统仍然遭受着欺骗攻击的威胁,导致系统的安全性得不到保障,这无疑不利于声纹认证系统的更广泛应
云计算、物联网等信息技术的持续不断发展使得人们的生活变得更加方便快捷。然而,为了享受物联网带来的便利服务,人们需要相应地提供某些个人信息。因此,在互联网开放的时代下,由于某些原因,如未授权访问,用户信息泄露的风险日趋严重。大多应用场景一般基于公共的网络环境,各种实体如用户、攻击者等都参与其中,为了保证服务或信息的正确授权访问,验证实体的合法性是要实现的必需安全目标之一,而身份认证是实现该目标的重要