【摘 要】
:
在数据聚类过程中,数据采集设备故障、数据存储不完善等诸多因素都会造成数据不完整,即数据缺少若干个属性。如果直接忽略缺失数据就会无法充分利用其有效信息,导致无法挖掘出缺失数据中潜在的重要信息,最终影响聚类精度,因此研究不完整数据聚类有着重要的意义和价值。本文针对不完整数据无法直接用于模糊聚类且初始聚类中心随机选取的问题,提出一种改进生成对抗网络(GAN)填补不完整数据并使用改进烟花算法优化模糊C均值
论文部分内容阅读
在数据聚类过程中,数据采集设备故障、数据存储不完善等诸多因素都会造成数据不完整,即数据缺少若干个属性。如果直接忽略缺失数据就会无法充分利用其有效信息,导致无法挖掘出缺失数据中潜在的重要信息,最终影响聚类精度,因此研究不完整数据聚类有着重要的意义和价值。本文针对不完整数据无法直接用于模糊聚类且初始聚类中心随机选取的问题,提出一种改进生成对抗网络(GAN)填补不完整数据并使用改进烟花算法优化模糊C均值(FCM)初始聚类中心的不完整数据模糊聚类算法。首先,针对不完整数据集不能直接进行FCM聚类的问题,本文提出一种改进生成对抗网络(IGAN)的不完整数据填补算法(IGAN-FCM)。第一,为使模型得到更多缺失数据的潜在信息,提高模型填补精度,从而实现对不完整数据缺失值的预测填充。将缺失样本的最近邻样本属性均值加入到GAN模型的生成器中。第二,为增大真实数据与生成数据间的相似性度量,迫使生成器生成尽可能真实数据,重构GAN模型生成器的损失函数。为提高模型训练速度,提出在GAN模型生成器的损失函数中加入自适应加权策略,从而得到IGAN模型。利用不完整数据集中的完整属性训练改进的GAN模型,使模型生成尽可能真实的数据填补缺失属性。其次,对经过IGAN模型填补得到的完整数据集进行聚类分析。由于FCM聚类算法对初始聚类中心敏感,不合适的初始聚类中心极易使FCM陷入局部最优。为此提出一种改进烟花算法优化FCM初始聚类中心的模糊聚类算法(IFWA-FCM)。由于烟花算法能够在局部和全局搜索之间达到较好的平衡,所以采用烟花算法优化FCM算法的初始聚类中心。尽管烟花算法具有较强的局部和全局搜索能力,但固定爆炸半径系数和单一的烟花变异方式,也可能使其陷入局部最优。因此在算法爆炸阶段提出动态爆炸半径系数,在变异阶段引入柯西变异,并使用改进的烟花算法优化FCM完成模糊聚类分析。最后,本文使用UCI数据集中的Blood、Breast和Bupa数据集以及KDD公开的空气质量数据集和MIMIC衍生数据集进行对比实验。实验结果表明,在不同缺失率下所提出的IGAN-FCM与四种经典不完整数据聚类算法相比聚类精度有所提高。且提出的IFWA-FCM与提出的IGAN-FCM在不同数据集下进行对比聚类精度更高,泛化性能更好。
其他文献
如今社会,是一个飞速发展的社会,技术创新已然走进了人们生活的各个领域,一些新兴产业,如人工智能、大数据、云计算等发展势头十分迅猛,极大地改变了全球的经济形态。在信息技术体系中,软件占据核心地位,是助力科学技术创新与推动经济体系转型的潜在助推力。软件产业是电子信息领域最为重要的组成部分,国家为了鼓励软件产业的健康发展,出台了大量的相关政策,因此软件产业才能稳步向上发展。近年来,软件产业的发展前景尚好
随着社会的进步发展与人口老龄化程度加深,老年人的生活质量以及身心健康需求得到社会关注。在人口老龄化进程中,受特定历史条件下的计划生育政策影响以及家庭结构变化,我国空巢老人这一特殊群体的数量也在迅速增加。与此同时,社会养老压力加大、子女照料精力有限,无法提供稳定的社会支持,加之老人生活观念和健康需求不断升级,空巢老人的养老需求面临着更加复杂的困境。因此,为实现老有所养、老有所乐,建立并完善空巢老人互
“杰利蝾螈”现象伴随美国从殖民地时期发展至今,是美国政治不公正重要体现。政党通过控制立法机构在选区划分时将选民群体刻意分散或集中在特定选区内、将敌对政党竞选人划分致难以胜利的选区等措施实现政党代表稳定地胜利。“杰利蝾螈”产生于美国精英阶层致力于避免直接民主、争取达成联邦政府的初衷,在限制少数族裔、移民者的选举权力的过程中发展,但最终在政党政治和计算机技术的发展下司法体系也对其逐渐失去限制,对美国公
随着社会高速发展,由环境引发的问题渐渐成为人们关注的焦点,一些重金属阳离子的存在会严重影响生存环境甚至危害人类健康,如Fe3+是构成人体最基本的微量元素之一,Fe3+的缺乏或者过量都易导致问题出现,例如消渴症、心血管衰竭等。Cu2+是人体最常见的金属元素之一,参与了人体很多的基本生理过程,Cu2+的过量或者缺乏直接影响人体危害,例如门克斯病。因此开发出能够定量检测环境中的特定金属离子具有重要价值。
习近平总书记强调,应急处突能力是年轻干部们必须要掌握的一项能力,尤其是进入至新的形势环境下,面对紧急突发事件、面对风险挑战,对领导干部的应急处突能力有了新要求,应急处突能力自然也被赋予了新的时代内涵,所以本文选取领导干部应急处突能力建设作为研究课题。本文以黑龙江省绥化市为例,找出当前领导干部应急处突能力建设上存在的问题,分析产生问题的原因。发现对领导干部应急处突能力建设重要性的认识、对应急处突相关
校园欺凌问题是社会和国家长期以来关注的热点问题,国家十分重视校园欺凌的防治工作。当前,学校的关注点更多地集中于预防校园欺凌事件以及欺凌事件发生后对欺凌者的教育方面,对被欺凌者的关注略有缺失不足。据调查结果显示,被欺凌者很容易出现自我效能较低等问题,而儿童及青少年的自我效能对其健康成长有着至关重要的影响。因此,被欺凌小学生自我效能的提升是一个亟待深入探究的问题。G社区为被欺凌小学生开展的小组社会工作
图像的深度估计是从给定的图像中提取深度信息从而重建三维场景,是计算机视觉最基础的研究领域之一,在语义分割、自动驾驶等前沿领域有着极其重要的应用。其中从单幅图像中进行深度估计最为棘手,因为同一张图像可以映射多个三维场景,计算机并不像人类可以根据丰富的先验知识准确地判断单幅图像的深度大小,所以这项任务对于计算机来说是很困难的。近年来,随着神经网络的发展,由于深度学习方法具有良好的特征提取和泛化能力而被