基于多重聚类的局部离群点检测算法研究

被引量 : 0次 | 上传用户:kgfu86
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着现代科学技术与信息技术的飞速发展,积累了隐藏着有价值信息的海量数据。为了充分利用这些数据,数据挖掘技术成为一个重要的研究领域。数据挖掘的主要功能是从大量的、完整性不足的的数据集中,找出人们无法预知的、但又极具价值的知识。离群点检测是数据挖掘的一个非常重要的研究分支,其主要功能是从庞大的而复杂的数据集中提取与主流数据(正常数据)有着极大区别同时又属于极少数的数据。离群点检测在人们的生产生活中有着非常广泛的应用,如医疗诊断分析、气象研究等。目前研究人员已经提出了大量的离群点检测算法。如,基于聚类的离群点检测算法,基于统计的离群点检测算法等。然而现有的大多数离群点检测算法都具有时间复杂度高的缺点。于是,研究学者们又开发了许多改善算法性能的技术,如,剪枝技术。剪枝非离群点可以减小目标数据集的大小,从而有效降低算法的时间复杂度。本文为了改进LDOF算法的缺点,提出了一个基于多重聚类的局部离群点检测算法PMLDOF。该算法既可以降低离群点检测的时间复杂度,又可以避免剪枝过程中对离群点的错剪,同时通过剪枝大量非离群点降低了检测精度对最近邻参数k的敏感性。具体而言,本文的主要研究工作如下:①介绍了离群点检测的研究背景及离群点检测的国内外研究现状。②对离群检测进行了较为详细的分析,总结了各种算法的核心思想和各自的适用范围。全面系统地介绍了集成学习,重点讨论了集成学习的核心思想和所用的相关技术。③为了改进局部离群点检测算法LDOF时间复杂度高和对最近邻参数k的敏感的缺点,提出了基于DBSCAN剪枝的局部离群检测算法PLDOF。但是,PLDOF却存在错误剪枝离群点的缺点。为了克服此缺点,本文引入了多重聚类的思想,利用多重聚类可以对簇的边缘稀疏区域进行筛选处理的特点,提出一种基于多重聚类的局部离群点检测算法PMLDOF。④在对多重聚类进行集成整合前,必须解决不同聚类划分间逻辑等价簇不匹配的问题。本文分析了不同聚类划分间聚类不匹配的各种情况,提出了一个解决此问题的方法,并在正文中给出了该方法的详细描述。⑤对PMLDOF算法的性能进行了理论分析,并在模拟数据集和真实数据集上对该算法的有效性进行了验证。⑥合理地总结了本论文所做的研究工作,并简单介绍了下一步的研究工作。
其他文献
近日,国务院副总理刘延东在与国医大师座谈时再次明确提出"中医药是我国独特的卫生资源、潜力巨大的经济资源、具有原创优势的科技资源、优秀的文化资源、重要的生态资源"。
目的探讨改良式低位产钳术联合无保护会阴助产护理在初产妇中的应用效果。方法选取本院2012年10月~2014年6月单胎初产妇214例,采用随机数字表法分为两组,每组107例。对照组采
水域空间规划是当前城市景观规划的一个重要内容,目前,国外的水域空间规划不仅局限在一条河流、一片湖泊等的治理,而是从生态角度出发,将水体、堤岸、滩地、湿地、植被、生物
心理和谐是反应心理内外关系的一种心理现象,是心理内部要素之间、人事之间、人际之间和身心之间在总体意义上的协调统一、相对稳定的关系在人的心理上的综合体现。它由个体
目的观察caveolae对血管平滑肌细胞增殖的影响及可能机制。方法取培养第3代VSMCs培养皿中培养。干扰组细胞加甲基-β-环糊精(methyl-β-cyclodextrin,MβCD)(5 mmol/L,DMEM配
新时代日新月异,文化被各国所重视,并提上了舞台,成为各国综合国力竞争的一项重要指标,在这样的大背景下,我国对于文化也愈发的重视起来。中职教育是社会经济发展不可缺少的
痢疾,《内经》言"肠澼",因其闭滞不利,亦称滞下,多为胃腑湿热郁蒸,气血凝滞,肠腑脂膜受损,化腐成脓下注而来,治痢之法,从古至今不乏效者,然张锡纯此方从阴阳脏腑调治,可谓匠
高校图书馆精准文化扶贫是图书馆实现社会化服务职能的重要体现。本文从高校图书馆精准文化扶贫存在的问题切入,指出了'互联网+'背景下高校图书馆开展精准文化扶贫的
<正>2019年2月17日,上海中华艺术宫"风生水起逐浪高——纪念改革开放四十周年长三角美术作品展"迎来了第50万位观众。此次展览集结了来自长三角地区的上海美术馆(中华艺术宫)
话语标记语是一种常见的语言现象,具有多样的语境连接性,是连贯语篇和成功交际不可缺少的重要组成部分。目前学界对话语标记语的研究主要有连贯、语法-语用和认知语用三种角度