【摘 要】
:
离群点挖掘作为数据挖掘的重要组成部分,能够从大量复杂的数据中找到小部分与其他数据相比最不一致、显著异常的数据点,这些异常点往往包含着非常重要的信息。本文通过研究现
论文部分内容阅读
离群点挖掘作为数据挖掘的重要组成部分,能够从大量复杂的数据中找到小部分与其他数据相比最不一致、显著异常的数据点,这些异常点往往包含着非常重要的信息。本文通过研究现有的离群点挖掘算法以及目前国内外在离群点挖掘工作上的进展情况,针对离群点挖掘的热点问题,分别在大规模高维数据和空间数据这两个离群点挖掘研究热点上,提出了基于聚类约减的局部离群点检测算法和基于Voinoroi图的局部加权空间离群点挖掘算法。在大规模高维数据集上,由于LOF算法需要反复遍历数据库计算所有点的邻域,时间复杂度非常高,本文提出一种改进的离群点挖掘算法。算法使用核K-means聚类将数据点映射到高维核空间中,通过高维核空间突出了样本之间的差异,选取数据集内真实的点代替均值点,从而减小离群点的干扰。最后对划分好的数据簇,通过度量函数判断数据簇内点的分布情况,选出离群点候选集,仅对该候选集内的点进行局部离群点挖掘。基于核K-means聚类的离群点检测算法约减了参与计算的数据点,从而降低了执行时间。在空间数据挖掘中,由于空间数据具有自相关性和空间异质性,因此,传统的离群点挖掘方法在空间领域内挖掘效果并不理想。本文根据空间离群点挖掘的现有问题,提出了基于Voronoi图的局部加权空间离群点挖掘算法,该方法将空间数据的属性划分为空间属性和非空间属性,通过空间属性确定空间数据的邻域,解决了数据的自相关性;通过计算对象的局部离群因子,解决空间数据的异质性。使用Voronoi图查找数据对象的邻域能够将时间复杂度降低到O(nlogn),并且该方法避免了人为输入参数的行为,减少了算法对用户的依赖性。同时对于不同邻域、不同的属性添加局部权值,增加局部重要属性对离群点的影响程度,进一步提升了算法的精度。两种方法分别在真实数据集上进行了实验,实验结果表明,本文提出的方法在时间复杂度和查找精度上都有一定的优越性。
其他文献
生物质能作为一种新型的能源,具有传统能源无可比拟的优势,它清洁、高效、可再生。秸秆作为生物质燃料的代表性一员,在作为农业大国的我国大量存在,直没有得到有效地利用,被随意处置,甚至就地焚烧,既造成了资源的极大浪费,也对环境构成了巨大危害。本文首先介绍了所用到的相关知识,即供应链管理理论和博弈论知识。通过生物质燃料发电这一切入点,把涉及到的三方即农户、电厂、政府作为课题的研究对象,采用博弈论的知识,借
当今,随着科学技术的不断深入发展,不同学科之间的交叉和技术渗透成为科研人员研究的热点,因为对于客观世界中的某些具有挑战性的问题只凭借单一的技术是很难解决的,往往需要
20世纪80年代以来,随着计算机、通讯技术的迅速发展,以及各种数字化、体积小、重量轻、探测精度高的新型传感器的不断面世,无人机(Unmanned Aerial Vehicle,简称UAV)的性能有
近年来,数据库技术得到了突飞猛进的发展,特别是关系数据库的应用,导致了海量的数据、有限的信息应用问题,引起了广大学者的重视,数据挖掘技术从上世纪九十年代应运而生,被用
随着互联网的广泛应用以及各种办公系统的无纸化,各种电子形式的文本文档正以指数级的速度迅速增长,如何从这些海量的文本文档中快速有效的找到有用的信息,成为信息检索领域的重
果蝇优化算法(Fruit Fly Optimization Algorithm, FOA)是一种对果蝇在觅食过程中的行为进行仿真模拟从而总结得出的一种优化算法。FOA算法根据果蝇所在位置计算其相应的味道
语义网这个概念于2000年首次由Berners-Lee提出,以往Web技术中计算机主要扮演展现信息的角色,几乎不参与信息处理,忽略计算机信息处理的作用,一方面使得Web中庞大数据无法得
交互式遗传算法是一种通过人的主观评价得到个体适应度值的遗传算法。它将人的智能评价与进化计算有机的结合起来,突破了建立被优化系统的显式性能指标的限制,大大扩充了进化
在移动通信和通信产品普及的时代,通信原理已成为各高校电子信息工程、通信工程等专业的必修课。它的辅助教学实验课程具有验证理论知识,使理论知识转化成实际电路和培养学生