基于属性加权的恒星光谱聚类方法及应用

来源 :太原科技大学 | 被引量 : 0次 | 上传用户:fencer_2
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前,聚类技术在大数据处理和分析中的应用越来越广泛。本文以LAMOST恒星光谱数据分析为研究背景,针对两种经典的划分聚类算法K均值和K中心算法中距离度量未充分考虑属性重要程度、初始中心选择随机性以及处理海量高维恒星光谱数据时时空开销大的缺陷进行优化改进。主要研究内容如下:(1)提出了一种基于属性加权的聚类算法。针对传统基于划分的聚类算法未有效区分属性特征重要程度的缺陷,考虑各属性特征对聚类划分的贡献率不等的思想,提出了一种可以量化属性重要程度的改进聚类算法。首先定义了离散度函数,通过该函数从属性离散程度来区分属性的重要性;然后,根据各属性的离散度值计算各属性的相似度距离,将所有属性的距离求和作为数据对象间的相似性判断依据;最后,结合K-means算法思想进行聚类。理论分析以及在UCI和LAMOST恒星光谱数据集上的相关实验表明:该算法减少了聚类过程的迭代次数,提高了聚类结果的准确率。(2)提出了一种属性权重自适应的聚类算法。针对两种典型基于划分的聚类算法中初始中心随机选择以及固定属性权重不够灵活的问题,给出了一种属性权重自适应的聚类算法。首先,定义了全局和局部属性离散度的比作为属性重要性的度量依据;然后,基于初始聚类中心应满足相同半径内具有较大密度且中心间相对较远的思想,提出了一种结合密度和距离的初始聚类中心选择方法;最后,引入调节参数来优化“手肘法”并确定最优簇数K。通过UCI和LAMOST恒星光谱数据测试验证了所提算法的聚类结果更接近真实的划分情况。(3)设计并实现了一个恒星光谱数据聚类分析原型系统。首先,依据数据归约的思想构建了一种基于Haar小波变换的恒星光谱数据特征提取模型用于提取光谱数据的主要特征并重构谱线特征集;其次,为了提高人机交互效率,在上述研究基础上基于算法(2)设计并实现了一个恒星光谱聚类分析原型系统;最后,通过恒星光谱数据集测试验证了该系统的聚类结果符合MK分类规律。该系统的开发有助于恒星光谱数据聚类分析研究和天体光谱数据挖掘,对进一步深入分析天文大数据提供了有力的支撑。
其他文献
随着电子技术及材料技术的发展与进步,频率范围为2k Hz-150k Hz的超高次谐波传播特性变得更加复杂,造成了较为严重的电能质量问题,引起了广大学者的关注。本文围绕超高次谐波的产生机理及分布特性、超高次谐波检测方法、重采样方法的改进、滤波方法改进、半实物仿真对方法可行性的验证等方面展开。本文首先对低压配电网中常见的超高次谐波源进行分类,并对SPWM电路及Boost电路进行仿真及数学模型推导,分析
随着通信技术的进步,人们对无线通信的需求增长越来越快,大量无线设备接入网络。目前无线通信网络中的设备都是由电网或电池进行电能的供应,电网供能移动性较差,维护困难;电池供能相对便捷,但是需要按期进行充电或者替换电池,造成人力、物力资源的耗费。无线携能通信(SWIPT,Simultaneous Wireless Information and Power Transmission)技术的提出可以有效缓
风力发电作为优质的可再生能源,近年来在我国能源系统所占的比例也逐渐增大。风能的较大波动性给电网安全稳定运行带来巨大的挑战,准确的风电机组输出功率的预测将风能的缺点减少,更适合逐渐增加的风电并网比例,保证电力系统可以提前预防,及时调度能源。针对功率曲线拟合度差和风电功率预测准确度不高,本文提出了结合深度置信网络(DBN)和多元线性回归(MLR)的深度学习模型对风电功率进行预测。首先,针对风电机组日常
近些年,随着我国交通运输业的蓬勃发展,全国各地建设了大量的隧道。由于隧道所处外部环境复杂,且经过多年运营,大量衬砌已出现多种病害。其中,衬砌裂缝对隧道造成的危害最为严重,衬砌裂缝的检测也是隧道日常维护的主要任务。目前,人工检测是隧道衬砌裂缝检测的主要方法,然而隧道内工况条件恶劣,人工检测工作强度大、效率低下。随着人工智能在计算机视觉方面的发展,深度学习在隧道衬砌裂缝检测上的应用成为研究的热点。本文
伴随着经济水平不断地发展,健康对我们而言变得越来越重要,现在因为人体可吸入颗粒物而引起的疾病渐渐增多,人们的身体健康问题变成了备受关注的话题。特别是对于老年人和小孩子来说,更加容易引发多种疾病。在大气环境存在着许多大大小小的颗粒物质,在这些物质中有很多是人体可吸入的,其中扬尘是这些物质中非常重要的组成部分,扬尘的来源比较复杂,主要包括道路扬尘和施工扬尘。在实际应用过程中传统扬尘监测方法有很多困扰和
基于邻域的离群点检测算法,是离群检测的一个重要手段。但随着数据量和数据维度的爆炸式增长,导致其很难直接应用到高维数据中,而且不合理的参数选择导致算法的性能显著下降。针对上述问题,本文从减少参数对离群检测的影响入手,对基于邻域的离群检测进行了深入的研究,提出了适用于高维数据的离群点检测算法,其主要研究成果如下:(1)提出了面向离群检测的特征提取算法,FEOD算法。首先,通过迭代过程获得最优的信息熵阈
近几年,随着人工智能理论与技术的迅速发展,智能技术在工程机械领域的应用也成为了众多科研机构的一个热门研究方向。挖掘机作为工程机械的典型代表之一,无论是在资源开采方面还是社会建设中都起着非常重要的作用,但人工操作挖掘机作业不仅效率低还容易受作业环境等不定因素影响。在目前这样一个提倡增速提效的社会大背景下,人工操纵挖掘机进行生产建设的方式已无法满足社会的建设发展需求,而自动化挖掘机因效率高、环境因素影
随着我国污水处理量的逐年增加,产生的大量城市污泥亟待处置。目前常见的处置方式包括堆存、填埋和焚烧等。其中,污泥土地利用是城市污泥资源化利用的重要途径之一。本文以太原市的北郊污水处理厂和杨家堡污水处理厂的脱水污泥样品为研究对象,采用经过优化后复合淋洗剂(MC4)淋洗处理两种污泥,将淋洗前后污泥以不同的比例(0.3%、1%、3%)添加到农田土中进行温室培养试验和盆栽试验,考察不同污泥配比对小白菜生长、
近年来,随着科学技术的迅速发展,对低成本高性能复合材料的需求不断增长。连续碳纤维增强铝镁基(Cf/Al-Mg)复合材料板具备比强度高、比模量高和热膨胀系数低等特点,还具备耐高温、高导热与导电率、抗辐射等优点,在材料性能与设计方法上有明显的优越性,能够满足航空、航天结构对材料刚度的要求。传统的Cf/Al-Mg复合材料板制备方法普遍存在生产效率低,约束条件多(例如高压、高温)等问题。于是,开发出一种生
车道线检测是自动驾驶的基本任务之一,用于规范和引导车辆行驶,具有重要的研究意义。传统算法使用车道线的几何、颜色等特征进行检测,具有一定效果,但是无法应对复杂的交通场景。近年来,车道线检测逐步向深度学习领域发展,特别是基于语义分割的算法被广泛应用,车道线检测算法的准确度和鲁棒性有了很大提高,但是存在计算速度较慢、像素的感受野有限、检测效率较低等问题。针对这些问题提出一种基于深度学习的车道线检测方法,