【摘 要】
:
聚类是用于数据分析的一种有着广泛应用的统计方法。随着数据收集技术的不断发展进步,数据集的维度越来越高,在高维数据集上进行聚类成为一个具有挑战性的课题,自适应降维聚类法
论文部分内容阅读
聚类是用于数据分析的一种有着广泛应用的统计方法。随着数据收集技术的不断发展进步,数据集的维度越来越高,在高维数据集上进行聚类成为一个具有挑战性的课题,自适应降维聚类法(ADRC,Adaptive Dimension Reduction Clustering)是近年来提出的一类具有较好应用前景的高维聚类算法,它以距离作为相似性度量,同时地考虑“自适应降维”和“子空间聚类”两个方面,使所抽取出来的子空间具有最佳判别能力,从而聚类的结果比起传统的算法,如K—means(KM),更容易跳出局部最优.然而,这类算法在建模的时候没有考虑到离群点可能带来的影响,对数据集中同时存在明显同方差簇和离群点的情况表现得不鲁棒。而离群点在现实数据集中是经常出现的.
为处理这个问题,本文提出了噪声鲁棒的ADRC算法思想(NRADRC,Noise Robust ADRC).它尝试在自适应降维聚类算法的两个主要步骤“自适应降维”和“子空间聚类”中引进密度因素,降低这两个过程被噪声污染的可能性.本文选择最近提出的LDAKM算法作为特例,在其两个子过程LDA和K—means过程中考虑密度因素,得到NRLDA(Noise Robust LDA)和NRKM(Noise Robust K—means),然后从理论上证明了如果使用同一种有效的密度估计方法,NRLDA和NRKM可以集成为一个统一的噪声鲁棒的自适应降维聚类框架。最后,采用一定的密度估计策略在实际数据集和合成数据集上进行实验,结果表明了NRADRC的有效性.
其他文献
基因芯片技术的应用使得快速获得大量基因表达数据成为可能,进而为生物信息学研究提供了必需的数据库,极大地推动了基因数据的研究。细胞的生命活动与细胞内所有基因的表达水平
随着Internet互连网络的飞速发展,流媒体技术已经被广泛应用。流媒体的访问流量在Internet的访问中占据了越来越重要的地位,研究流媒体在Internet上的代理传输成为提高流媒体
虚拟现实(Virtual Reality,简称VR)技术是一种用以创建和体验虚拟世界(Virtual World)的综合集成技术,它借助计算机构建出一个与现实环境十分逼真的虚拟环境,支持用户使用自
以计算机为核心的电力现代化管理信息系统(MIS),能够按照电力部门各项管理工作的客观规律和要求来制定作业程序标准,贯彻执行管理行为。从网络管理信息系统的发展来看,B/S结构的
本文首先引入了企业信息门户(EIP)的概念并分析其研究的意义,论述了企业信息门户的功能和带来的优势。同时,提出构建企业信息门户的关键问题是:解决企业异构信息和企业应用的集成;企业信息门户作为企业单一的入口包括三方面的集成技术:Portal技术提供了界面的集成、EAI技术提供了应用的集成、目录服务技术提供了数据信息的集成。接着论述了Portal技术及单点登录、EAI涉及的面向服务架构(SOA)和We
车载自组织网络(VANET)有很多自己的特点:网络中没有可靠的网络基础设施可供使用,车辆间必须建立起自组织网络来实现相互通信,可能无法使用无线基站;车辆的快速运动使得网络
随着互联网的发展,云计算技术的使用日益广泛,公有云更是成为了很多小型企业部署业务的首选平台。由于云计算具有用户基数大,租户数量多以及高流量等特点,传统的负载均衡系统
图像配准是图像处理的基本任务之一,它的主要作用是将不同时间、不同传感器、不同视角及不同拍摄条件下获取的两幅或多幅图像进行匹配(主要是几何意义上的)。近年来对图像配
随着科技的发展,很多应用领域涉及到大量空间数据,空间数据库成为一个热门话题。空间关系是空间数据库和GIS领域的重要研究内容。拓扑关系作为最基本的空间关系,是其中的研究
运动目标的检测与跟踪是计算机视觉领域的一个重要课题,在智能视频监控、基于视频的人机交互、机器人视觉导航、虚拟现实、自动驾驶、医学图像及农业自动化等领域都有广泛的