一种分类数据聚类算法及其高效并行实现

来源 :计算机应用与软件 | 被引量 : 5次 | 上传用户:gaboo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对大规模、高维、稀疏的分类数据聚类,CLOPE算法相比于传统的聚类算法在聚类质量及运行速度上都有很大的提升。然而CLOPE算法存在聚类的质量不稳定、没有区分每维属性对聚类的贡献度、需要预先指定排斥因子r等问题。为此,提出基于随机顺序迭代和属性加权的分类数据聚类算法(RW-CLOPE)。该算法利用"洗牌"模型对原始数据进行随机排序以排除数据输入顺序对聚类质量的影响。同时,根据信息熵计算各个属性的权重,以区别每维属性对聚类的贡献度,极大地提升了数据聚类的质量。最后,在高效的集群平台Spark上,实现了
其他文献
翻译实践的源文本取自When Women Ruled The World:Six Queens of the Egypt(《当女性统治世界:埃及的六位王后》)一书,并根据书中的介绍部分以及其第1章、第2章内容撰写了本篇英汉翻译实践报告。源文本的介绍部分分别对书中涉及到的六位古埃及女王做了梗概介绍,且针对她们的统治做出了评价并借古思今,剖析和对比了外界对待当代位列政治高位的女性与同样身份的男性的不同
动态因子分析是一种应用于环境监测领域的前沿数据分析统计技术。在计算环境参数按时间序列的变化规律时,其能够客观反映出各关联物理量随环境参数变化而呈现出的规律性,在地表水,地下水,空气污染治理等领域的环境监测中存在较大的应用空间。目前,动态因子分析技术在国外的环境监测中已经得到了广泛应用,而在国内仍需要进行本地化转移和应用。通过对数据预处理,大数据计算,信息挖掘和空间分析等层面应用方式的不断完善,动态
随着渤南油田开发的持续深入,由于渤南油田低密度、高含蜡的特点,结蜡问题时有发生,已经成为制约渤南油田原油高效开发的重要因素,因此,做好清防蜡工作刻不容缓。然而在以往
阅读是当代社会人们获取信息的最重要的途径之一,随着社会的高度发展,信息传播的速度加快,这将要求人们不仅对基础知识的学习能力,还要有较强的自学功底从而达到终身学习的目的。其中培养自学能力的主要途径之一就是阅读,阅读是自学能力的核心。根据新课程标准的教学观,以及放眼于近几年数学教育中对数学阅读的重视,笔者关注到在小学数学教育中应重视学生的数学阅读,学生具备一定的数学阅读能力,可以更好的学习数学,对学生
目的:研制一种新型天然无交联胶原膜,探索其酶稳定性。方法:采用溶剂挥发法制备Ⅰ型胶原膜,用SEM、能谱仪、傅里叶红外光谱检测膜的结构及成份特征。SEM观察用Ⅰ型胶原酶体外
<正> 1 用教育家的眼光看待体育一个校长应该怎样看待体育,我以为这是一个校长的基本素质问题。评论一个校长是不是教育家,标准之一是看他对体育在教育中的地位与作用的认识
随着新高考政策的不断推进,高中物理课堂教学又面临这巨大的挑战,从2019年重庆市实施“3+1+2”的高考政策后,明面上又掀起了学习物理的热潮,暗地里选择报考物理的人数却在降
目的: CBCT 扫描三维重建并测量呼和浩特地区蒙、汉族正常[牙合]人群牙冠转矩数据,对比研究不同民族、不同性别牙冠转矩的差异性。方法:对呼和浩特市大学城学生进行普查筛选,
综合视频监控系统技术与其他技术相比较,是一种具有数字化、网络化特征的新型技术形式。为了能够对铁路状况进行实时监控,铁路在充分运用综合视频监控系统技术。其不仅能够为
“逸”是一个重要的中国古典艺术批评概念。“逸”在不同历史时期拥有不同的地位与内涵。但是目前对于“逸”的界定过于模糊与零散,并且掺杂了过多的带有主观色彩的语言,表现出了交融性与渗透性。尽管“逸”过于碎片和庞杂,但是按照逻辑性的思维分析,仍然能够理出一个清晰的脉络。文章的脉络是围绕“逸”的渊源、“逸”的内涵、“逸”的流变以及“逸”在中国古典艺术批评中的位置与当代价值进行的。文章立足于“逸”成为艺术批评