一种基于改进相似度计算的文本聚类方法

来源 :河南大学学报(自然科学版) | 被引量 : 0次 | 上传用户:lawyerhw
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对文本在聚类或分类时,由于数据高维稀疏导致相似度值低的问题,提出一种基于改进文本相似度计算的聚类方法.首先,利用向量空间模型VSM表示文本,采用余弦函数计算文本之间的相似度;然后,基于网络中节点的相似性传播原理,通过设置阈值找到与各个文本相似度较大的文本集合,进而使用Jaccard系数将两个文本之间相似度计算转化为两个文本集合之间的相似度计算;最后根据得到的文本相似度矩阵,利用谱聚类算法对文本进行聚类.在WebKB上的实验结果表明,与传统的K-means、谱聚类方法相比,该方法提高了聚类的准确度,召回率与F值.
其他文献
京艳是我们1997年以京秀作母本、香妃作父本杂交育成的葡萄鲜食早熟红色新品种。果穗圆锥形,有副穗,平均穗重420.0 g;葡萄粒椭圆形,单粒重6.5~7.8 g,最大单粒重10.5 g;玫瑰红