【摘 要】
:
聚类分析是指对于给定的数据集,在没有其他先验知识的情况,将其通过聚类算法进行分割,进而得到子集的过程。这些由聚类分析而获得的子集被称作簇类,对于得到的各个簇类,每个
论文部分内容阅读
聚类分析是指对于给定的数据集,在没有其他先验知识的情况,将其通过聚类算法进行分割,进而得到子集的过程。这些由聚类分析而获得的子集被称作簇类,对于得到的各个簇类,每个簇类内部的数据,数据之间具有较高的相似度,而对于这些簇类间的数据,数据之间具有较低的相似度。因为聚类分析不需要任何其他先验知识,只需要数据本身就可以进行,因此它比需要先验知识的分类算法有着更为广泛的应用。目前已有相关研究者对此提出了一些聚类算法,但是这些算法仍然存在着无法发现任意形状的簇类,需要的参数过多而且意义不明,对于数据量较少的数据集效果不佳等问题。针对这些存在的问题,基于现存的聚类算法,本文提出了根据这些算法改进的聚类算法,本文的主要研究工作如下:首先,提出了一种由数据密度所确定的簇类中心来约束的最近邻层次聚类算法。算法分为两个阶段,第一阶段被称作预合并阶段,通过对于数据进行预合并,利用合并过程中的冗余信息,来计算得到基于冗余信息的密度值,这样的密度值因为不需要设定其他额外参数,因此不会存在参数初始化敏感的问题,同时由于密度计算过程中,对于单一数据点的密度的计算,并非考虑的只是该点局部的情况,因此对于数据量较少的数据集,不会出现由此引发的统计误差。在获得数据密度值后可以计算数据的最小距离值,然后通过数据的这两个参数,可以找到数据集中的簇类中心;第二阶段称为簇类中心约束的最近邻层次聚类,利用第一阶段找到的簇类中心,在层次聚类的合并过程中区别对待具有簇类中心的簇类和没有簇类中心的簇类,来进行有簇类中心约束的层次聚类算法来得到最终的聚类分析结果。然后,提出了一种基于数据本地密度的簇类中心约束的最近邻层次聚类算法。针对提出的合并冗余信息度量数据密度发生的不鲁棒的缺点,采用了一种新的基于高斯函数密度度量的方法,并在实验中证明了该密度方法对于簇类中心发现的鲁棒性。方法被用于聚类第一阶段中,能更为鲁棒的寻找到数据集中的簇类中心,提高了第二阶段中最后获得的聚类分析结果的精准度。最后,为了验证本文提出的方法的有效性,我们使用了人工数据集和真实数据集分别对于提出的聚类算法与其他方法进行了比较实验。实验结果表明,在输入较少的参数的情况下,本文提出的两种方法都能高效的完成聚类分析,并且在分类准确率上比其他方法具有一定优势。
其他文献
摘 要:在社会主义社会建设过程中,人民需求的发展是推动整个社会经济、政治、文化等各个领域不断发展的最根本动力,正确理解社会基本矛盾和社会主义矛盾之间的辩证关系具有重要的实践意义和理论意义。新时代,我们应正确认识和处理我国社会两类矛盾之间的关系。坚持将人民的需求作为我们最根本的价值追求,以准确把握以人民为中心的发展思想与不断深化改革之间的辩证关系,在深刻理解我国社会两类矛盾的关系之中发展历史唯物主义
车牌识别系统是智能交通系统的重要组成部分,广泛应用于十字路口车辆监控、高速路口车辆管理及停车场收费管理等场景。车牌识别系统通常分为三大模块:车牌定位,字符分割及字
随着我国综合实力不断增强,国际影响力不断扩大,很多企业也开始发展海外业务,拓展海外市场。印尼是世界第四人口大国,也是高速发展的发展中国家,对于以饲料、养殖为主业的X公司战略意义重大。X公司是集团公司在印尼市场设立的子公司,主要从事饲料生产、销售,种禽等养殖技术服务等业务,从集团公司总体发展战略上看,一方面X公司所在区域市场是集团的海外市场的成熟片区,未来将增加更多的合适点布局;另一方面,X公司也是
随着移动互联网的快速发展,智能手机逐渐成为人们日常生活中不可或缺的一部分,Android系统以其开源性成为目前最流行的手机操作系统。然而,Android系统的开放性也使得它更容
自2006年原国家财政部和人事部首次明确了绩效工资是事业单位工资制度的重要组成部分以来,建立绩效工资制度,将工作人员的收入和个人工作实绩贡献挂钩,实现按劳分配、优绩优酬,成为我国公立高等院校推进收入分配制度改革的重要着力点。随着2016年11月国务院统一部署各中央部委直属高校开始全面实行绩效工资制度改革,高校收入分配制度改革进入新的阶段。与此同时,作为我国高等教育领域新的重要教育工程和服务建设社会
云计算技术的不断趋于成熟,使得企业和个人更加倾向于通过租用云计算服务来降低IT资源的管理和维护成本。在Iaa S云计算环境下,租户网络及数据会以虚拟网络和虚拟机镜像的形式承载于云端,用户失去了对网络和数据的绝对管控。目前已有研究提出在虚拟网络中以加密隧道方式传输用户数据或利用网络监控方式对虚拟网络中传输数据进行数据审计,然而,这些工作侧重解决虚拟网络外部安全威胁,对于虚拟网络内部威胁关注较少。由于
英语作为国际通用语言,正在被越来越多的人使用。《义务教育英语课程标准(2011年版)》也对初中英语口语提出了更高的要求。国内部分地区已将英语口语纳入中考。《普通高中英语课程标准(2017年版)》提出要培养学生英语核心素养,从语言能力、思维品质、文化意识和学习能力四个维度,培养具有中国情怀、国际视野和跨文化交际能力的学生,口语能力是英语核心素养的重要内容。英语口语教学的传统模式为讲解型教学模式,其优
世界经济的全球化、跨界经营模式的频现和信息技术的高速发展,人工智能、云计算工具、大数据分析模式全面兴起,各行各业追求生存发展的经营绩效创造与提升越来越重要。随着人力成本、竞争成本及生产运营成本的逐步增加,企业的发展战略和经营绩效创造需要以战略成本管理为核心。战略成本管理由更多的企业作为中长期发展策略来研究与推行,需要将研究理论与企业实际经营状况、行业特性、竞争态势相结合,运用科学的研究工具做好全面
背景颅内动脉瘤作为神经外科常见的一种脑血管性疾病,其破裂会导致蛛网膜下腔出血(Subarachnoid Haemorrhage,SAH),在临床上因为它破裂后的高死亡率和后期诸多的并发症给病人造成了极大的威胁,在动脉瘤疾病的形成及发生发展过程中,机体的炎性反应始终起到了关键性作用,尤其在动脉瘤破裂后会刺激机体一系列的炎性反应。不仅仅局限于脑部,临床上数据显示,患者出现肺部并发症的比例高达23%,的
智能化,小型化传感检测系统是传感检测技术发展的重要方向,随着多种技术(如芯片,为纳米,以及智能手机软件和硬件)的发展,基于智能手机的传感检测系统成为当前一个重要的研究