【摘 要】
:
随着大数据时代的到来,无论是获取数据的渠道和方式,还是数据本身的大小、类型和结构都越来越多样化,这使得数据挖掘的发展越来越具有挑战性。近年来离群检测逐渐成为数据挖掘领域中的热门研究方向,它被广泛地应用于包括社交网络、移动支付和购物系统等在内的众多领域,因为除了常规数据外,少数离群点往往也能带来有价值的信息,并且随着业务的升级,对离群检测算法能够更有效地处理各种复杂的数据的要求也越来越高。本文针对现
论文部分内容阅读
随着大数据时代的到来,无论是获取数据的渠道和方式,还是数据本身的大小、类型和结构都越来越多样化,这使得数据挖掘的发展越来越具有挑战性。近年来离群检测逐渐成为数据挖掘领域中的热门研究方向,它被广泛地应用于包括社交网络、移动支付和购物系统等在内的众多领域,因为除了常规数据外,少数离群点往往也能带来有价值的信息,并且随着业务的升级,对离群检测算法能够更有效地处理各种复杂的数据的要求也越来越高。本文针对现有的离群检测算法存在的问题进行深入研究。针对现有的离群检测算法无法在线形、多种形状混合和子集间密度差异较大等情况下的数据集中有效检测离群点的问题,本文提出了一种新的基于自适应邻居和加权核密度的离群检测算法NWKOF(Adaptive Neighbor and Weighted Kernel density-based Outlier Factor)。首先,通过弱化自然邻居中的约束来定义出自适应邻居,然后利用数据点的自适应邻居信息为数据点分配权重和计算数据点的自适应带宽,进而得到数据点的加权核密度,最后求出用于表示数据点离群程度的离群因子。实验表明,本文提出的NWKOF算法能够获得较好的离群检测性能,并具有稳定性。另外,NWKOF算法针对的是数据能够一次性获取的情况,即静态数据。虽然它能够获得较好的检测性能,但若将其应用到不断有新数据生成的大规模数据流中,则需要的计算代价就无法接受。因此,针对现有的数据流离群检测算法的时间效率问题,本文在NWKOF算法的基础上提出了一种新的基于抽样的数据流离群检测算法UIKOF(Upper Bound of Incremental Kernel Density-based Outlier Factor)。该算法分为抽样总结和数据加入及检测阶段。在数据加入及检测阶段中,定义了离群因子上界使得在不需要计算数据点实际的离群因子的情况下快速裁剪正常数据;在抽样总结阶段中,设计了一个新的形状项并使用梯度下降法对窗口中的数据进行抽样,使得抽样得到的子集与窗口中的原数据集之间密度差异小的同时还保持了数据分布的形状。实验表明,本文提出的UIKOF算法减少了计算代价,还能获得较高的检测精度,并具有一定的可应用性。
其他文献
近年来,第五代移动通讯技术(5G)的快速普及和边缘基站加速建设,将移动边缘计算(MEC)从概念逐渐落地为助力新兴移动应用、创新人机交互方式、加速物联网大数据治理、完善工业生态的重要基石。移动边缘计算是由云计算演进出的一种新的计算框架,相比于传统云计算,移动边缘计算将计算任务负载从远程云转移到了更靠近用户的网络边缘节点,利用无线接入网络就近为移动终端设备提供各种所需的服务与云端计算功能,从而创造出一
随着信息科学技术与传统工业技术的相互融合,涡扇发动机朝着复杂化、大型化发展。然而,传统维护方式存在着维护过度与维护欠缺等问题,难以胜任涡扇发动机的维护需求。因此,故障预测与健康管理(Prognostics and Health Management,PHM)应运而生。剩余可用寿命(Remaining Useful Life,RUL)预测是PHM的关键技术之一,若能准确预测设备RUL,据此作出合理的
随着边缘计算技术的快速发展,网络边缘接入用户和设备数量急剧上升,海量隐私和敏感数据产生在边缘设备上,边缘计算环境下频繁的数据交换过程带来了大量的数据安全传输需求。然而,资源受限的边缘设备无法满足传统加密技术的资源需求,如何在资源受限设备上保证数据传输的安全性已成为了一个难题。轻量级加密技术使用实现成本较低的密码结构以及加密算法,利用少量资源开销为资源受限设备提供安全性,其具有低存储需求、低执行时间
医学图像分割的主要任务是将图像中的目标器官组织准确提取出来,为诊断或临床治疗提供辅助参考。近年来,基于深度学习的图像分割算法因其卓越的性能,而被广泛用于医学图像分割领域。此外,得益于相关理论以及硬件的快速发展,学者们提出了基于2D-CNN、3D-CNN以及Transformer的多种分割模型,这些模型在较大的器官组织(肺部、肝脏、心脏等)分割中取得了不错的效果。然而,医学图像分割中仍存在很多难点:
属性图可以承载丰富的信息,在社交网络、推荐系统、电子商务等领域应用广泛。对于这类网络平台中产生的大量半结构化数据,使用属性图进行建模分析是最理想的方式。同时,由于网络平台上的图数据规模庞大,常使用随机游走采样对这类图数据进行统计估计。受到“均方误差可以分解成估计值的偏差与方差之和”的启发,开发了一种算法框架以减小图上随机游走采样估计的均方误差。该算法框架可以将各种随机游走采样算法作为基础,对其采样
害虫是造成农作物减产和破环园林生态的主要因素之一。准确而快速的害虫识别是害虫防控过程中的关键所在。传统害虫识别主要依赖农林业专家的经验,而这一过程效率低且成本高昂。近年来,随着深度学习技术在计算机视觉领域取得快速进展,基于卷积神经网络(Convolutional Neural Network,CNN)的害虫图像识别方法被广泛研究与应用,并取得显著成效。然而,野外环境下的害虫图像识别由于受到细粒度、
电子鼻系统模拟了生物的嗅觉系统。它通过传感器技术和人工智能技术实现了对气体的快速检测和分析。然而在实际应用中,电子鼻系统会出现传感器时间漂移和多系统板间差异问题。这些问题会导致电子鼻系统前后采集的数据分布发生变化,使得训练好的模型无法有效地对后续数据进行分析,从而限制了电子鼻的应用。近年来,基于子空间投影的漂移抑制方法发展迅速,但性能需要进一步提高。本论文的研究目的便是提出高性能的基于子空间投影的
膜进化算法(Membrane Evolutionary Algorithm,MEA)是受到生物细胞结构和行为启发而提出的一种进化算法,被广泛应用于各类NP难问题的求解上。最长圈问题(Longest Cycle Problem,LCP)是图论中经典的NP难问题之一,不仅在图论研究中有重要的意义,也和现实世界的复杂网络应用密切相关。过往的LCP研究大多通过特殊图的理论性质来寻找最长圈,难以直接运用到现
红外摄像头主要应用于低光照或夜间条件下的监控系统,是城市视频监控系统重要的组成部分,在可见光图像与红外光图像之间检索行人对于城市安防以及刑侦工作的高效开展起着重要作用。因此跨模态行人重识别的研究十分重要。跨模态行人重识别指在可见光图像与红外光图像之间检索行人。现有基于深度学习的跨模态行人重识别模型识别精度普遍较低,原因是两种图像成像方式不同,风格上存在较大差异,提取出的图像特征缺乏另一模态信息,而
作为人工智能的重要应用领域,智慧医疗具有将生理数据与医学知识联系起来的关键能力,在提高医疗服务质量的同时降低医疗成本方面显示出巨大的潜力。同时,基于机器学习模型的智慧医疗服务也能借助云计算等新兴技术,在提升数据服务质量的同时降低行业从业门槛,促进以人为中心的智能解决方案。基于数据和机器学习模型的智慧医疗系统需要采集用户的生理数据来提供高质量的数据服务。然而,医疗数据的敏感性在用户隐私方面极为关键,