基于网格的DBSCAN算法和聚类边界技术的研究

来源 :郑州大学 | 被引量 : 0次 | 上传用户:xsnxj111
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机应用的普及,信息系统产生的数据量日益增大,如何有效地利用巨量的原始数据分析现状和预测未来,已经成为人类面临的一大挑战。这时,数据挖掘技术应运而生。数据挖掘又称数据库中的知识发现,是指从大型数据集中发现有趣的、有用的且预先未知的知识的过程。数据挖掘是数据库研究最活跃的领域之一,通过数据挖掘可以从大型数据集中提取可信、新颖、有效并易于理解的知识、规律或高层信息,这给人们在信息时代所积累的海量数据赋予了新的意义。随着数据挖掘技术的迅速发展,作为其重要组成部分,聚类分析和边界模式检测技术已经广泛应用于模式识别、数据分析、图像处理、市场研究等许多领域。而聚类和边界模式检测算法的研究也已经成为数据挖掘研究领域中非常活跃的一个研究课题。聚类是数据挖掘的一项重要内容,它把没有类别标记的样本按照某种准则划分为若干类,使类内样本的相似性尽可能大,而类间样本的相似性尽可能小。它是一种非监督的学习方法。传统的基于密度的聚类算法DBSCAN可以发现不同大小、任意形状的聚类,但算法的高复杂度限制了它的应用。传统的网格聚类算法具有很高的效率,但是精度不高。本文提出了基于网格的高效DBSCAN算法GbDBSCAN,综合了基于密度聚类算法和网格聚类算法的优点,使用网格划分和数据分箱技术,提高DBSCAN算法的效率。并且,算法能够识别和处理边界点。实验结果表明,GbDBSCAN在不降低DBSCAN聚类质量的前提下,大大提高了DBSCAN算法处理低维数据集的效率。在现实应用中有着重要意义的边界模式检测技术对数据挖掘有着重要的意义。为有效地检测聚类边界点,本文提出了基于统计信息的边界模式检测算法BOURN(Boundary Pattern Detection based on Statistics Information)。该算法根据数据对象的k距离统计信息设定邻域半径,再根据对象邻域范围内邻居的k距离统计信息寻找边界点。实验结果表明:BOURN算法可以有效地检测出任意形状、不同大小和不同密度聚类的边界点,并能有效地消除噪声。
其他文献
本文基于固网短信系统项目的研究与实现,研究了固网短信技术的基本原理以及使用到的关键技术和协议,如CTI技术、FSK技术、DTMF技术、ADSI协议、SMTP协议等。分析和设计了系统的
本文首先对手写数字图像的图像灰度化、二值化、去噪、细化、归一化、特征提取等预处理过程进行分析;其次,利用动态模糊理论解决手写数字字符识别中的多维特征和动态模糊性问题
目前,传统的DVD碟片容量已无法满足观看高清晰视频节目(分辨率1920×1080)的要求。蓝光光盘价格居高不下,且转产成本高,而国内厂商也面临着DVD专利困扰,这些都表明了开发一种
知识表示一直是人工智能研究的重要课题,无论应用人工智能技术解决什么问题,首先遇到的就是所涉及的各类知识如何表示。在人工智能领域,对知识的表示有多种方法,但一般都受其
随着互联网的迅猛发展和网民数量的迅速增长,网站的功能也不断扩展,由此造成了人们参与网络活动的方式不断演化,即从简单的获取信息到直接参与网络内容的建设。网络逐渐成为了信
学位
无线传感网络是指由无线传感网络节点通过无线通信组成的网络。无线传感网络技术在最近十年来得到了飞速的发展,开始从学术界研究走向商业应用。然而硬件技术的进步并不会使无
本文将语音信号处理技术应用在外语语言学习中,设计实现一个可以自动评价中国人英语发音质量的系统。该系统集中了人类发音专家的知识,可以自动比较学习者的发音与标准发音之间
随着社会的发展,信息化进程的加快,计算机应用已经深入到各行各业,专注于流程描述的工作流技术就是其中的一个重要应用,在办公自动化、电子政务、制造生产等方面都可以用到相关技
近年来随着数字化在各机关企业中越来越普及,数据库在各个企业中的角色也就越来越重要。数据库所累积大量的数据中往往隐藏了许多有用的重要信息,如何能够有效率且正确地发掘