K-Means聚类的多种距离计算方法的文本实验比较

来源 :福建工程学院学报 | 被引量 : 0次 | 上传用户:jun342546371
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对文本类型数据的分类进行研究,用VSM模型和TF-IDF技术对文本文件进行了数据样本抽取加权,得到文本相似度矩阵;采用不同样本距离计算方法和K-Means算法对数据进行了聚类实验,获得聚类结果并进行了分析和总结;基于实验结论,研究了不同距离计算方法之间的区别以及适用的数据类型。
其他文献
2012年,TCL交出了一份漂亮的成绩单。
现代社会不断发展,事业单位不断发展,传统事业单位会计制度已经无法满足事业单位的发展需求,若想要推进事业单位进步,发挥其在社会和谐发展中的重要价值,就必须要在新事业单
期刊
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
通过分析有机石亭绿茶特征,总结提出了生产有机石亭绿茶对茶叶品种、生态条件、基地选择、肥培管理、病虫害防治技术等的要求,为石亭绿茶从常规茶园向有机茶园转换提供可操作性
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
计算机技术极大地促进了人类社会的进步,同时也带来了计算机犯罪问题。计算机取证(Computer Forensics)是打击计算机犯罪所使用的主要技术手段,一般分为离线方式和在线方式。
基于人工神经网络的理论,提出了快速识别数字调制信号的方法:1)BP神经网络量化共轭梯度算法;2)径向基(RBF)神经网络法;3)小波系数的BP和RBF神经网络法.这些方法收敛速度快,性能好,仿真结
在消费品制造商和消费荇之间,天然存在着严重的“信息不对称”。
运用文献资料法、问卷调查法等科研方法对跆拳道运动员专项身体素质与运动成绩的关系进行了研究,确定了影响跆拳道运动成绩的四类专项身体素质,通过对不同专项身体素质因子的测
科技的进步发展,是不断开发、应用、实践的结果。大力推广科技成果,加快科学技术商品化,正确判断、识别并坚持机械自动化技术的发展走向,对于机械自动化技术的发展至关重要。