【摘 要】
:
异常值检测算法是数据挖掘领域的研究热点.传统局部异常值检测算法中,基于密度的方法挖掘局部异常值的性能较好,但是其在衡量数据对象与其近邻的偏差程度时仅在距离方面做考虑,往往忽略了角度.而随着数据规模和数据维度的增加,根据数据对象与其近邻间差异检测异常值的方法变得不再适用.因为在高维数据集中存在着一些不相关的属性,导致在全维空间中无法体现出异常值与其他正常值的偏差,很难检测出异常值.而且这种不相关的维
论文部分内容阅读
异常值检测算法是数据挖掘领域的研究热点.传统局部异常值检测算法中,基于密度的方法挖掘局部异常值的性能较好,但是其在衡量数据对象与其近邻的偏差程度时仅在距离方面做考虑,往往忽略了角度.而随着数据规模和数据维度的增加,根据数据对象与其近邻间差异检测异常值的方法变得不再适用.因为在高维数据集中存在着一些不相关的属性,导致在全维空间中无法体现出异常值与其他正常值的偏差,很难检测出异常值.而且这种不相关的维度会影响异常值检测的效率,同时会减小异常值挖掘的准确性.为了弥补以上缺点,本文针对不同规模数据对异常值检测算法展开深入研究,主要工作如下.针对一般规模的数据,本文提出了一种基于局部相似度的异常值检测方法.该方法通过同时考虑距离和角度来获得数据对象与其近邻间的相似度,进一步挖掘出局部异常值.首先,为了更好地在距离方面描述数据对象间的相似度,对高斯核函数进行改进,形成了局部弹性高斯核相似度.其次,利用属性向量的均值调整余弦相似度得到基于角度的相似度.最终将二者结合形成基于局部相似度异常因子来表示数据对象的异常程度.数据对象的异常因子值越大,该对象是异常值的概率就越高.在仿真数据集和真实数据集进行实验,验证了该方法的有效性和准确性.针对大规模高维数据集中不相关的属性与冗余数据导致无法检测出异常值的问题,本文提出了一种新的基于稀疏子空间的局部异常值检测算法.首先,根据数据对象在每个维度上的局部密度定义了对象的异常因子.其次,依据异常因子阈值约简数据集中与局部异常值不相关的属性以及冗余的数据对象.最后用改进的粒子群优化算法在约简后的数据集中搜索稀疏子空间,该子空间中的数据对象即为异常值.通过在仿真数据集和真实数据集上的综合实验验证了该算法的有效性和准确性.
其他文献
随着软件产品市场的不断扩大、软件运行设备的不断更新以及软件开发流程的不断成熟,人们对软件产品的性能需求逐渐凸显。性能问题本质上与源代码密切相关。为了解决同一个问题,不同的开发人员可能写出截然不同的“正确”代码,从功能测试的角度来说,他们的代码实现的功能是一样的。但从性能测试角度,他们的代码运行效率可能大不相同。大多数在线判题平台或者网站的评判系统都使用自动判别方式,通常依靠测试结果来验证所提交源代
随着纳米制造技术的不断发展,加快了微电子、微机械、微光学、介入医学等领域的发展步伐,对微小紧凑式的加热装置的需求越来越多,微型加热装置成为学者们的研究热点。聚合物锂电池因为微型化、高密度、低危害、使用寿命长等优点被用于微型加热装置的能源模块。近年来各个国家对聚合物锂电池的研究力度逐渐加强,尤其是在电池管理系统(Battery Management System,BMS)方面,BMS通过收集聚合物锂
社交应用软件在如今人们的生活中变得越来越重要。微博作为其中的代表,它打通了陌生人交流的屏障,使亿万人在网络中自由交流。微博的用户数据量很可观,变成了研究用户行为的一个重要资源。在微博环境中,微博的转发属性是最能看出用户偏好的,因此研究微博转发很有意义。用户的偏好同时受很多种因素影响,本文主要研究用户的偏好受内容和作者共同影响。因为本文是在主题维度上进行研究,所以后续可以根据微博文本的主题来判断用户
全无机卤化铅铯(Cs Pb X_3,X=Cl,Br,I)钙钛矿量子点具有优异的光电性能,通过调节卤素组成可实现Cs Pb X_3量子点在可见光范围内的发光可调,而掺杂Rb+是调节钙钛矿量子点发光波长的新方法。近年来,由于Cs Pb X_3钙钛矿量子点具有高的光增益系数、长的载流子扩散长度与高的吸收系数,使其在上转换放大自发辐射(ASE)与激光应用领域的探索也引起了广泛关注。但量子点胶体溶液差的稳定
人体行为可以应用在室内视频监控、病人监护系统、人机交互、虚拟现实、智能家居控制、智能安防系统、运动员辅助训练等很多领域。在一段含有人体动作的视频中,人体骨架是动作信息的主要承载者。相比于一段视频帧序列,用骨架记录运动数据具有存储空间小、不受光照及对比度影响的优点,因此基于骨架的视频行为识别任务受到了研究者的广泛关注。在一张骨架图中,每个关节点可以视作图结构的顶点,关节点间的骨架可以视作图结构中顶点
传统管理会计认为不同性质的成本与企业业务量之间存在简单的线性相关关系,但是在企业实务中,企业的成本并不是完全随着业务量的变化而呈对称性变化的,学者们称为"成本粘性"
伴随着中国经济进入新常态,政府治理面临全新境遇。经过几十年城市化进程的发展,越来越多的农民脱离了土地融入城镇谋生,由此产生了规模巨大的特殊人群——失地农民。他们的
作为wnt/β-catenin信号通路关键因子的β-catenin基因,在鱼类性腺发育以及分化方面的研究相对较少。本研究首次克隆得到了福瑞鲤β-catenin2基因的cDNA全长序列(GeneBank:MF
相干检测使信息可以被编码在光信号用来传递信息的四种物理量上,包括强度、频率、相位和偏振,因而它能改善系统的频谱效率。近十年来,网络游戏、高清网络电视、视频直播等新业务发展得很快,网络需求容量快速增长,之前的带宽已捉襟见肘,所以人们把关注的目光转移到具有高频谱效率的数字相干检测技术上来。与此同时,高速率模拟数字转换器(Analog to Digital Converter,ADC)的出现以及数字信号
中学的语文课堂教学虽然已经有了很多可喜的进步,但一线的语文教师仍然没有摆脱语文课堂教学中的许多问题,并深受其扰,尤其针对中学语文课堂教学·中效率偏低的状态,而名师课堂教学艺术研究就能针对这种问题提供解决方式,有利于课堂整体效率的提升。程翔老师常年工作于教育一线,熟悉每个时期最前沿的教育内容,他的课堂教学艺术具备非常高的学习价值。笔者仔细研究了程翔老师的教学作品、文章以及真实的课堂教学案例,对其中的