改进的CK-means优化及并行策略

来源 :计算机应用研究 | 被引量 : 1次 | 上传用户:cgy1922
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对大数据背景下K-means存在选取质心导致的局部最优解、聚类速度慢的问题,提出一种Flink平台下的CK-means聚类优化及并行策略。从算法优化层面,采用Canopy算法确定聚类数目k并选取初始质心;从并行化加速层面,基于Flink平台设计了一种面向CK-means的并行加速策略,并分析不同并行度对计算耗时的影响。经实验,相较于K-means算法,CK-means算法的准确率与迭代次数间的比值更高,算法性能更优,在iris数据集中性能比提升44.79%,在wine数据集中性能比提升32.03%
其他文献
对于二分类问题,基于判别模型的分类器一般都是寻找一条最优判决边界,容易受到数据波动的影响。针对该问题提出一种基于生成模型的Q-learning二分类算法(BGQ-learning),将状态和动作分开编码,得到对应各类的判决函数,增加了决策空间的灵活性,同时在求解参数时,采用最小二乘时序差分(TD)算法和半梯度下降法的组合优化方法,加速了参数的收敛速度。设计实验对比了BGQ-learning算法与三
根据公路路基和基层状况、使用材质、工艺流程、温度、湿度和切割时间等因素,分析砼路面裂缝形成的原因,并提出控制和减少裂缝的主要措施,以及已发生的裂缝的补救办法。
轨迹聚类是城市交通数据挖掘的重点之一,交通轨迹聚类算法是按照一定的相似度指标将轨迹划分成若干个类簇。在复杂的路网环境下,针对目前如DTW、SDTW等相似度计算方法准确性不高的问题进行了研究,提出了一种划时区分段的动态时间规整算法(SDTW+)进行相似度计算。该算法充分考虑了轨迹形状因素,能有效提高准确性。实验部分利用不同相似度算法,并结合层次聚类算法对实际车辆轨迹进行聚类,最终以平均轮廓系数和聚类
我国道路交通中,沥青路面具有很重要的地位。通过分析农村公路沥青路面破坏的情况,针对性地提出预防路面破坏的相关措施,可为我国的道路施工提供一定的参考。
<正>面肌痉挛的病因尚不清楚,长期以来倍受争论。目前一般认为面肌痉挛中有较多患者其症状与面神经通路上血管压迫有关。为探讨面肌痉挛患者神经血管压迫病因的MR表现及其诊
运用信息论的理论基础,给出了一个结构歧义的信息熵模型,用此模型分析了利用上下文信息对歧义结构进行消解的数学原理,建立了度量歧义结构歧义强度的定量方法和消歧策略的收益率模型。在基于规则的上下文排歧中,引进了基于统计的信息熵和互信息方法,把基于规则的理性主义方法与基于统计的经验主义方法巧妙地结合起来,分析了基于信息论的汉语结构歧义自动消解的最优策略法和上下文信息最优策略法中所依据的语言学知识及数学原理
利用室内试验测定了土工格栅加筋碎石土的无侧限抗压强度和土工格栅加筋粉砂土的回弹模量,分析了加筋层数和压实度对加筋土的抗压特性和变形特性的影响规律。试验结果表明:当