【摘 要】
:
针对K均值(K-means)聚类算法进行文本聚类时随机选取初始聚类中心点的问题,提出一种基于密度峰值进行初始聚类中心点选取的适用于文本聚类的K-means算法(DPMCSKM),为了更好地
【机 构】
:
北京工商大学计算机与信息工程学院;
【基金项目】
:
国家自然科学基金(61877002);北京市自然科学基金(4162019)
论文部分内容阅读
针对K均值(K-means)聚类算法进行文本聚类时随机选取初始聚类中心点的问题,提出一种基于密度峰值进行初始聚类中心点选取的适用于文本聚类的K-means算法(DPMCSKM),为了更好地适应大规模聚类计算的要求,设计并实现了基于MapReduce的DPMCSKM并行化算法。实验结果表明,DPMCSKM算法可以有效地进行文本聚类,与K-means、基于密度峰值的快速搜索聚类算法选取初始簇中心点的K-means以及多簇球形K-means算法相比在聚类质量上均有一定的提升,在收敛速度上也有较好的表现;DPMCSKM并行化算法在可扩展性上,具有较好的加速比。
其他文献
目的:观察松紧结合挂线术治疗高位蹄形肛瘘的临床疗效。方法:60例随机分为两组各30例,对照组用常规切开挂线术,治疗组用松紧结合挂线术。结果:治疗组对肛门功能保护优于对照
近年来,我国船舶工业得到了迅猛发展,由此带来的船舶主推进系统设计效率低下、水平不高的问题日益突出,船舶推进系统的设计越来越受到有关方面重视。如何更有效、更规范、更
响堂山石窟最早开凿于北齐文宣帝高洋时期(公元550—577年),现存主要石窟造像均为北齐时雕造。本文主要是针对响堂山北齐的石窟装饰艺术进行研究。南北朝时期是我国装饰艺术
随着计算机、信息技术的高速发展,计算机系统应用于电子技术之中,为其生产提供了技术支持。而单片机作为嵌入式系统的重要代表,从八十年代4位、8位的单片机,发展到今天的300M
目的探讨银屑Ⅰ号治疗寻常性银屑病的作用机理。方法用ELISA方法检测银屑Ⅰ号治疗寻常性银屑病治疗前后血清单核细胞趋化蛋白-1(MCP-1),肿瘤坏死因子α(TNF-α),白介素8(IL-8
阐述了日本钢铁行业节能减排的发展历程,总结了日本钢铁行业取得成功的经验,并在此基础上有针对性地提出了促进我国钢铁行业节能减排的建议。
介绍美国城市生活垃圾的产生、性质、分类、收集及处理,并以加利福尼亚州一废弃物处理公司为例描述了美国以商业运转模式处理城市生活垃圾的方法、程序及效益。同时根据我国
<正>8月8日,全国中小学名师工作室联盟第三届名师论坛在深圳召开,论坛由《教师博览》杂志社主办,来自全国各地的中小学(幼儿园)名师工作室代表、教科研机构人员等360多人参加
为了在物理条件下对目标进行精确建模,有时需要运用非线性、非高斯系统. 而常规的卡尔曼滤波算法要求系统是线性高斯型的,因而不能直接用来解决非线性、非高斯问题.为了解决
磁流变阻尼器是一种新型的半主动耗能减振装置,具有结构简单,能提供连续、可顺逆调节的阻尼力,以及大的可调范围、响应速度快等优点,近十多年来在结构工程中得到广泛应用。磁