基于自然邻居的密度峰值聚类算法研究

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:shauto29
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
密度峰值算法是一种近几年流行的聚类算法,其算法简洁高效、所需参数少并且能够识别非凸数据集。因此被广泛专家学者关注,并被应用于许多实际场景中。然而,由于其聚类结果对于参数较为敏感、需要人工选择合适的类簇数目并且对具有不均匀分布的数据集还不能有效处理等问题。本文研究了相应的解决策略,通过引入自然邻居思想,实现了真正的自适应并提升了算法的性能。具体研究内容为:(1)为解决参数对于聚类结果的影响,提出了一种基于自然邻居思想的新内核,以改进数据点局部密度的计算方式。为解决类簇数目难以确定的问题,与肘方法联合,搜索根据决策图选择出的候选中心找到拐点,确定数据集的真实类簇数目。最后,结合“减而治之”思想,改进自然邻居的搜索过程,提高算法运行效率以处理大规模数据集。其中自然邻居思想的引入,使得算法实现了真正的自适应,而不再是基于经验设置进行聚类。经实验验证,所提出方法不仅可以实现真正的自适应,不再受参数设置的约束,而且提高了算法的性能。在多个人工数据集和UCI真实数据集上的实验结果验证了本文算法可以得到数据集的真实类簇数目,解决了难以确定类簇数目的问题。(2)为解决不能有效处理含有密度不均匀分布数据集的问题,提出了一种基于自然邻居的密度峰值算法归类机制。对于候选中心的归类机制,不再根据密度,依次划分较高密度的数据点,而是通过计算子类簇之间的连通性或不相似性,依次选择连通性较高的子类簇进行合并。在计算连通性时,需要先得到子类簇之间的交集区域。本文通过结合自然邻居思想来获得两个子类簇之间的交集,具体是当某一类簇内部的数据点的自然邻居中含有属于其他类簇的数据点时,将该点作为该类与其他类的交集区域。通过引入自然邻居思想,可以实现自适应获得子类簇之间的交集区域,解决传统通过阈值计算交集会因阈值设置过大或过小导致的交集过多,或是没有交集的现象发生。并且可以更为准确的计算子类簇之间的连通性,实现更好的聚类效果。在多个人工数据集和UCI真实数据集上的实验结果验证了所提出方法可以有效处理含有密度不均匀分布的数据集,具有一定可行性。
其他文献
铁路的安全稳定对我国经济的发展起着重要的作用,由钢轨缺陷导致的交通事故对生命安全和社会财产造成了极为严重的后果。因此研究准确且高效的钢轨表面缺陷检测技术,在事故发生之前检测出缺陷并及时进行维修,具有重要的现实意义。利用图像处理技术进行钢轨表面缺陷检测的方法,具有准确率高、非接触性等优点,成为当今钢轨表面缺陷检测方面的一种重要方法。本文在综合考虑检测准确率和分类速度的基础上,解决现有钢轨表面缺陷检测
新时期以来,随着经济社会全面快速发展,各种新兴违法犯罪和社会治安管理问题层出不穷,公安机关面临的维护国家政治安全和社会治安大局持续稳定的任务日益繁重,警务人员长期处在高强度、高压力的工作状态下,疲惫不堪。加之在服务型政府的构建过程中,民众对公安工作提出了新的更高的要求,公安机关要想做好新时期维护国家安全、确保社会稳定、服务人民群众各项工作,必须进一步提升队伍综合素质,最大程度的发挥现有警务人员的工
振动能量在机械结构中多是以弹性波的形式存在,并且存在低频、宽带等特点。针对上述特点,本文设计了一种压电超材料结构对宽带低频的振动能量进行收集,通过研究压电装置的输出开路电压、输出功率等参数来分析其能量收集能力,并探究其在实际工程应用中的可能性。本文的主要研究工作如下:分析了压电超材料能量收集装置的工作原理并对能量收集装置的结构进行设计,建立了压电超材料结构内弹性波传播的模型,针对这一模型,基于Ra
近年来,随着社交网络服务平台的日益增加,用户可以选择性地同时参与多个社交网络并享受其中的服务,社交网络的应用服务类型众多,例如朋友推荐。为了更好地实现服务,需要建立不同社交网络中的虚拟用户与现实世界中用户的映射关系,即用户锚链接预测问题。由于用户特征属性的提取质量会影响锚链接预测的效果,因此本文为了更好地解决锚链接预测问题,对嵌入算法进行研究,并提出面向稀疏图的Deep Walk嵌入算法和基于增量
随着社会的发展,电能应用越来越广泛,为了确保变电站的安全运行,必须对变电站里面的设备及时检查,但是变电站工作条件恶劣且对人身安全有威胁,开发变电站巡检机器人来代替人类从事变电站巡检工作一直是国内外的热门研究课题。本课题来自哈尔滨工程大学机电工程学院发展基金,目的在于研制一款能够检测变电站内部设备上的仪器仪表、进行应急操作的巡检机器人。本文的主要研究内容如下:首先阐述了国内外变电站专用机器人的研究现
声学事件检测(Acoustic Event Detection,AED)广泛应用在机器的环境感知、多媒体信息检索等领域,是促进社会智能化发展的重要技术手段,具有重要的研究意义和实际应用价值。传统的声学事件检测方法主要基于传统机器学习算法,需要人工完成复杂的特征工程。此外,目前已知的声学事件检测数据集仍存在数据量不足,事件类别不平衡的问题,基于深度学习的声学事件检测方法仍旧没有达到理想的检测性能。本
圆板结构因其独特的几何形状,广泛出现于生产实际中的各个场景,故以其为基础进行振动控制研究十分具有意义。声学黑洞结构是一种厚度以特定幂律函数形式变化的变厚度结构,在其中传递的弹性波的波速会随着厚度变化逐渐减小,理想情况下可以减小至0,对应可以聚集在结构尖端且不发生反射,进而实现能量聚集以及振动控制。因该结构的分段变厚度特性使建模难度有一定增加,同时适用于该结构位移函数的表达形式也有待建立,所以目前缺
近年来,随着网络信息技术应用的不断发展和进步,各种信息系统储存并积聚了各类丰富的数据。但是,数据集里包括了大量的个人隐私,在数据发布的过程中如果不采取一定的保护措施,随着数据集的发布和共享,可能会导致个人信息的泄露,数据的隐私保护问题越来越引起人们的重视。为了能够提供给数据研究者更多的有效数据,同时保护个人的隐私信息,既能保证数据的隐私性又能确保数据可用性的数据发布方法具有重要的理论价值和实际意义
大数据时代下,传统的异常流量检测采用静态规则匹配的方法,已然不能满足多变复杂的网络环境。面向更加庞大、更加复杂的网络环境,网络安全数据特征已不单单是“非黑即白”的数据描述。面对如今海量复杂数据产生信息的“波动性”和“不确定性”的特点,模糊集理论被广泛应用于数据特征提取时的约束条件,令提取的特征更加有多样性与全面性,使后续的数据分析预测更全面具体、更准确。因此,本文采用机器学习中的SVD(奇异值分解
海洋石油管道及设备终端连接器是水下油气资源开发系统的核心装备之一,深海环境下无潜水员辅助安装与维修,高压密封及洋流冲击使得水下连接器成为该领域的技术难题。目前连接器存在外形尺寸大、预紧力不足、抗外载干扰能力差等问题,针对现有缺点,本文以卡箍连接器为研究对象,对水下卡箍连接器金属密封理论修正、结构尺寸优化、力学传递原理进行研究,探究结构对卡箍连接器密封及抗载性能的影响。为探究适合水下卡箍连接器金属密