【摘 要】
:
【目的】探索最佳文本聚类数目的优化方法,为提升文本聚类算法的有效性和质量提供参考。【方法】结合TF-IDF和Word2Vec算法,提取TopN关键词向量作为语料库文本特征表达;结合
【基金项目】
:
国家社会科学基金项目“基于开放获取学术期刊的资源深度整合与揭示研究”(项目编号:16BTQ025);中国科学院文献情报中心文献情报能力建设专项项目“文献情报‘数据湖’及开放式大数据框架建设”(项目编号:院1852)的研究成果之一
论文部分内容阅读
【目的】探索最佳文本聚类数目的优化方法,为提升文本聚类算法的有效性和质量提供参考。【方法】结合TF-IDF和Word2Vec算法,提取TopN关键词向量作为语料库文本特征表达;结合均值漂移算法、聚类有效性指标(Silhouette)和均方误差(MSE)指标,确定最佳文本聚类数目。【结果】Top 4 500关键词向量规模能较好呈现文本特征;基于均值漂移算法确定的最佳文本聚类数与人工研判优化的聚类数相符。【局限】选取的实验数据集合不够充足,缺少在其他领域的应用对比。【结论】本文方法可以在无监督方式下高质量完成文本聚类个数的确定。
其他文献
电针是传统毫针与电刺激结合用于临床的一种针刺疗法。基于电针补泻针法的实现方法设计的智能电针仪器系统,对于促进传统针灸器具的进步具有重要意义,该治疗仪器对多种疾病具
本文在对内蒙古东、中、西部保障性住房建设调研的基础上,分析了内蒙古保障住房建设的现状,并进一步分析内蒙古保障性住房建设中存在的制度不完善、建设资金短缺、筹资渠道单
兰州市黄河百里风情线的建设初具规模,北滨河路的建设与都市旅游相协调、相结合,使之成为新时期的城市旅游资源,以吸引更多的中外旅游者。
<正>并购是由选择目标、评估目标和目标公司交易以及支付对价这几个主要阶段构成的,所以并购模式必然是处理这一系列过程的集合。并购模式可以用一个简化的模型来表达,即:并
当前随着新一轮科技革命和产业变革孕育兴起,纯电动汽车产业正进入加速发展的新阶段.文章根据项目规划动力性、经济性目标要求,对整车动力系统进行选型匹配分析,并利用AVL CR
目的探讨人类肥胖相关新基因FTO(fat mass and obesity associated gene/fatso,FTO)的多个单核苷酸多态性改变与儿童单纯性肥胖的关联。方法采用用聚合酶链式反应-限制性片断
电网无功优化能够有效降低电网网络损耗,提高电网运行的经济性和电压质量。大数据和数据挖掘技术能充分发掘电网数据中的有效信息,优化模型求解。因此,基于大数据技术的电网
急性腰扭伤俗称"闪腰"、"岔气",古代文献称为"概腰",是一种急性要部软组织扭伤,也是针灸科常见病之一.它主要是在运动或劳动中,用力不当、过度负重、超过生理负荷,使腰部受到
改扩建工程应是一种新老建筑整合的过程,理性拆除老化的、使用效率低的老建筑和保留承载着校园浓厚建筑文化历史、使用效率高的老建筑,扩建的新建筑总体布局与老建筑相互融合,整
东南亚国家是21世纪海上丝绸之路沿线经过的重要国家,其森林可持续经营对整个海上丝绸之路国家之间的林业合作至关重要。本文在比较中国与柬埔寨、老挝、越南森林可持续经营