谱聚类在离群数据挖掘中的应用研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:mcl19800627
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数据库技术的不断发展和Internet的不段完善,人们利用信息技术得到数据和潜在知识的能力得到极大的提高,数据挖掘正是在这种时代背景下产生的,其实质是从存放在数据库,数据仓库或其他信息库中的大量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程。离群数据是指远离常规数据对象的数据,不满足数据的一般模式和行为,这类数据与常规数据之间存在着明显的差异,因此我们有理由怀疑他们是由另一种完全不同的机制产生的,因此,作为数据挖掘的重要分支,离群数据挖掘已被广泛应用到医疗分析,网络入侵检测,金融客户分析,移动通信检测等多个方面。目前,离群数据挖掘已成为机器学习、数据库等领域专家学者的研究热点。离群数据挖掘分为发现离群数据和离群数据分析两个阶段,第一个阶段主要应用一些具体的离群数据挖掘算法寻找离群数据,第二个阶段主要结合数据本身性质和相关算法对挖掘出的离群数据进行分析,获取知识。本文重点讨论该过程的第一个阶段——离群数据发现。谱聚类由于能在任意形状的数据样本上进行聚类,逐步成为了当今聚类领域的研究热点。本文通过对离群数据挖掘实际应用的分析,成功地将谱聚类算法应用到离群数据挖掘领域,提出了基于NJW的离群数据挖掘算法,并通过实验验证了算法的有效性。总的说来,本文主要着眼于以下几个方面进行研究:①结合当今数据挖掘和离群数据挖掘领域的发展现状及趋势,分析了两者之间的关系,并分别给出了相应的挖掘流程。②具体介绍了当今离群数据挖掘的各种算法,对常用的离群数据挖掘算法的优点、缺点以及适用性进行了详细对比。③着重介绍了谱聚类的相关理论,并对其优势进行了具体地分析。④提出谱聚类应用于离群数据挖掘的具体问题,给出解决办法,成功将谱聚类的NJW算法应用于离群数据挖掘领域。通过对人工数据集和真实数据集的实验,验证了算法的有效性。⑤提出了后续研究工作的主要方向,并对离群数据挖掘的未来发展进行了展望。本文提出的基于NJW的离群数据挖掘算法具有一定的理论基础和实用价值,实验证明,该算法的效果令人满意。
其他文献
目前,肺癌的死亡率已远远高于其他癌症,计算机断层图像(CT)作为目前在胸部影像学中最常用的图像,已被广泛用于对于肺部肿瘤的检测中。然而由于CT图像数据量较大,在大阅读量的
汽车牌照自动识别系统(LPR)是计算机视觉、图像处理与模式识别技术在智能交通领域应用的重要研究课题之一,它是实现交通管理智能化的重要环节,在高速公路、城市交通和停车场
随着Internet技术的发展和后PC时代的到来,嵌入式系统成为当前IT产业的焦点之一,呈现出巨大的市场需求,嵌入式系统的应用领域和复杂程度正在日益发展,而数字电视的广泛应用将会在
近十几年来,模型骨架抽取这一课题已成为国际上比较热门的研究方向,包括Siggraph在内的很多国际、国内的科研机构、学者对骨架抽取及应用进行了深入的研究,使得这一方向的算
近年来,随着人们生活质量的提高,各种数码产品逐步走入平常百姓家庭,从而诞生了大量的数码照片、视频等数字媒体,然而对于这些数字媒体的安全性却毫无保证。数字水印作为一种信息
随着信息技术的迅猛发展,网络成了人们获取信息的主要手段,它在给人们带来便利的同时,但也带来了困扰。网络的信息内容庞大,人们经常要耗费大量的时间去搜索有用信息。当人们
互联网技术的普及,促使电子商务被越来越多的用户所接受。推荐系统可以与用户进行交互,模拟商店销售人员帮助用户完成购买过程,并能根据用户的兴趣对用户进行个性化的推荐,对
随着科学技术的发展,人们的生活越来越智能化和自动化,车辆也越来越多,这给高速公路收费,小区管理等增加了压力,而智能交通管理系统能改变这一现状,提高交通管理的效率,使之
随着电子计算机技术的发展,嵌入式系统应用越来越广泛。而ARM以其高性能低功耗的特点广泛应用于16/32位嵌入式微处理器。现在很多大学都开设了嵌入式系统课程,对于这种实践与
从软件工程中软件生命周期的角度分析,软件架构是软件的核心结构与行为,因而软件架构的设计是软件设计的核心,也是随后进行代码开发的基础。因此软件架构设计的重要性不言而