一种改进的K均值文本聚类算法

来源 :传感器与微系统 | 被引量 : 0次 | 上传用户:reinhardwu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
提出了一种改进的K均值文本聚类算法。该算法的改进基于以下两点:1)基于簇密度与文本间距离选取初始簇中心,引入置信半径来得到簇密度,即选取距离最远且簇密度最大的点为初始簇中心;2)基于权重的海明距离来计算文本相似度,同时采用轮廓系数来衡量不同算法的聚类质量。实验结果表明:该算法相比原始的K均值文本聚类算法和文献[1]中算法具有更好的聚类质量。
其他文献
初步探析了毛泽东的社会平等思想,分别从人民平等享有各项基本权利、法律面前人人平等、男女平等、利益分配平等、职业分工平等、教育平等、社会保障平等几方面具体进行了分
目的探讨剖宫产后瘢痕子宫再次妊娠患者的分娩方式及临床效果。方法回顾性分析2010年1月~2014年6月在本院就诊的剖宫产后瘢痕子宫再次妊娠患者140例,经阴道分娩(A组)30例,剖
针对山西省梨树种植中投入不足、果品单产低、田间水肥管理粗放等突出问题,进行梨树水肥耦合技术研究应用,采用梨树根下环绕式滴灌、文丘里施肥器的水肥一体化,结合深施有机
经《中华乳腺病杂志(电子版)》编辑委员会研究、讨论后,本刊确定了2017年的选题:重点选题第1期乳腺癌内分泌治疗(治疗适应证、敏感性、耐药性与相关酶等)(2月1日已出版)。
针对用人单位对大学生实际工作能力的要求 ,笔者结合自己多年来的教学经验 ,提出了课堂讲授重引导培养学生理论联系实际分析思考问题的能力 ,实验教学重安排培养学生解决生产
目的探讨非小细胞肺癌(NSCLC)恶性胸腔积液中ERCC1、XRCC1表达水平与铂类药物化疗疗效及预后关系。方法收集2012年3月—2014年3月给予铂类药物方案治疗的伴有恶性胸腔积液的
如果说20世纪后半叶是信息时代,那么21世纪上半叶生命科学将成为主宰.
对油浸式变压器储油柜油位异常的原因进行详细的分析,同时给出方便检修工作的储油柜缺油补充油量的计算公式。
<正>中国电子商务这个"朝阳产业"正生机盎然、蓬勃发展,保持着一个年均不低于30%的较高速度,并拥有着无限广阔的发展空间和未来。但与此同时电商发展和电商监管的不匹配,特别
当前,初中的基础数学在课堂教学中的问题设计是十分关键的,问题设置得好就能有效地提升学生在课堂上学习的效率,问题的设计主要在于拓展学生的思维,并且能够有效地解决学生的