一种改进型TF-IDF文本聚类方法

来源 :吉林大学学报:理学版 | 被引量 : 0次 | 上传用户:llxww104
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对传统词频-逆文档频率(TF-IDF)算法对具有特定属性的文本分类存在的不足,尤其是词汇在特定分类中具有特殊意义情形下准确率较低的问题,提出一种改进的TF-IDF文本聚类算法.采用2015—2019年吉林省科研机构发表论文数据进行对比实验,分别用改进TF-IDF算法和传统TF-IDF算法先统计论文中的关键词词频,再通过K-means++算法进行聚类,最后使用随机森林算法分别评估聚类的准确性.实验结果表明,改进TF-IDF算法提高了分类的准确率.
其他文献
目的采用傅里叶变换红外光谱(FT-IR)和高效液相色谱(HPLC)方法对37批不同品种和产地的大黄药材进行分析。方法分别采用FT-IR和HPLC测量37批大黄药材的红外光谱和液相指纹图谱,并对结果进行聚类分析。从每一产地中选择一批药材,分析红外原始光谱,并对原始光谱进行二阶导数处理,根据所得二阶导数光谱对各产地大黄进行分析;同时对HPLC指纹图谱进行相似度分析。结果FT-IR和HPLC两种方法聚类分析结果基本一致。通过分析不同产地的大黄药材原始红外光谱特征峰能够区分各产地大黄品种,但无法区分其产地,而二阶