【摘 要】
:
面对大量繁杂的新闻数据,为了让人们从大量的数据中了解主要类别信息,将采集到的11456条校园综合新闻作为研究对象,采用了基于词云和top3文章主题的k-means聚类方法.通过词频-反文档频率技术将采集到的11456条校园综合新闻进行主题提取,并用词云结果来估计k值,结果可将采集到的校园综合新闻数据聚为7个类别,与不基于文章主题的k-means聚类方法对比.评估结果表明,当将数据聚为2到10不同的类别数时,基于top3文章主题聚类的戴维森堡丁指数值整体小于不基于文章主题的聚类方法.因此,基于词云和top3
【机 构】
:
安徽理工大学计算机科学与工程学院,安徽淮南232001
论文部分内容阅读
面对大量繁杂的新闻数据,为了让人们从大量的数据中了解主要类别信息,将采集到的11456条校园综合新闻作为研究对象,采用了基于词云和top3文章主题的k-means聚类方法.通过词频-反文档频率技术将采集到的11456条校园综合新闻进行主题提取,并用词云结果来估计k值,结果可将采集到的校园综合新闻数据聚为7个类别,与不基于文章主题的k-means聚类方法对比.评估结果表明,当将数据聚为2到10不同的类别数时,基于top3文章主题聚类的戴维森堡丁指数值整体小于不基于文章主题的聚类方法.因此,基于词云和top3文章主题的聚类方法比不基于文章主题的聚类方法稍好.聚类结果能为用户了解或查找想要的类别信息提供一定参考.
其他文献
为了解决锂电池内部参数时变性和SOC估计不准确等问题,提出了一种电池模型参数在线辨识与SOC联合估计算法.在二阶RC等效电路模型基础上该联合算法于宏观时间尺度下采用无迹卡尔曼滤波算法在线辨识电池模型参数,并联合微观时间尺度下的扩展卡尔曼滤波算法估计锂电池SOC,在UDDS工况下验证了该联合算法对锂电池SOC的准确实时估算.实验结果表明,传统离线参数辨识下的锂电池SOC估计算法的平均绝对误差和均方根误差分别为1.52%和1.80%,在线参数辨识下的锂电池SOC估计算法的平均绝对误差和均方根误差分别降低到0.
探讨了交换整环上反对称矩阵空间中保持行列式的函数,证明了如下结论:设f是交换整环R到自身的一个映射,n(n≥3)是一个整数.如果n是奇数,那么f是R上n阶反对称矩阵空间的保持行列式的函数当且仅当f是R上的奇函数;如果n是偶数,那么f是R上n阶反对称矩阵空间的保持行列式的函数当且仅当f是R上n阶全矩阵空间的保持行列式的函数当且仅当f=f(1)δ,其中fn(1)=f(1),δ是R上的非零自同态.
1 研究目的rn扬子陆块东南缘发育新元古代造山带 [1-13],谓之“江南造山带”[10,14].江南造山带构造演化过程与特征,是扬子陆块东南缘新元古代地质演化长期存在争议的关键地质问题.通过对湘东北浏阳文家市地区苍溪岩群的解体与研究,厘定其为一套增生混杂岩.锆石U-Pb测年结果约束混杂岩的形成时代,对江南造山带中段构造属性的认识及大地构造格局的划分提供了新的依据.
东湖作为我国乃至世界第二大城中湖承载着武汉城市发展的历史脉络与精神内涵.本文从地质构造、气候演化、江湖相互作用和人类活动等方面对东湖的成因和演化进行了研究,认为东湖既是一个“构造湖”,又是一个“壅塞湖”,它的形成受多期构造运动叠加影响,印支运动至喜马拉雅运动过程中引起的褶皱变形、盆岭构造、凹陷盆地、大别山隆升等为东湖形成奠定了地质基础.东湖的形成与长江的关系密切,是中更新世以来地壳垂直升降和气候环境变化过程中江、湖相互作用的结果,最终在人类工程活动过程中形成现今的几何形态.不同时期的遥感影像显示出人类工程
成都盆地为龙门山推覆造山带与龙泉山褶断带之间的陆相盆地,晚新生代时期沉积了厚度较大的松散砂砾石层,过去对其地层划分与对比主要依赖于盆地周围的阶地剖面.笔者通过野外调查及室内综合研究,认为这些阶地剖面存在如下问题:(1)长度较短、地层连续性差,沉积物的颜色、成分、结构构造及剖面序列等相似;(2)缺少年代地层与生物地层资料;(3)缺少地层划分对比的标准剖面和标志层,进而导致依据阶地剖面建立的岩石地层单元时代归属存在不确定性,年代地层与岩石地层存在矛盾,生物地层还没有起到地层划分对比的支撑作用.建议在盆地坳陷区
土壤厚度是农业生产、国土空间规划和生态保护修复等工作重要的基础信息.为探索低山丘陵区土壤厚度空间分布快速评定的有效方法,本研究对在河南省罗山县实测的593个土壤厚度数据进行了数理统计,总结了低山丘陵区土壤厚度密切相关的五种环境影响因子:坡度、土地利用类型、建造构造、海拔和植被覆盖率,并运用主成分分析法确定了上述影响因子对土壤厚度的影响权重为:0.151、0.303、0.263、0.184、0.100.最后进行了土壤厚度预测性制图,并通过野外实测土壤厚度数据进行了精度验证,结果显示该方法验证精度为72%,卡
为降低新能源汽车骨架结构的焊接残余应力,选取奇瑞新能源汽车S61前地板骨架结构为研究对象,基于SYSWELD有限元分析软件,设计5种焊接顺序,模拟并分析不同焊接顺序对前地板骨架焊后残余应力的影响.结果 表明,前地板骨架Z方向残余应力最大,X、Y方向残余应力较小,焊接顺序主要影响Z方向残余应力.采用双焊枪从两侧向内部焊接的顺序可以有效降低前地板骨架的焊接残余应力.
花岗岩类自然矿物岩石化学换算是由我国学者朱为方和唐春景设计的针对花岗岩类的标准矿物计算方法.该方法相对于CIPW标准矿物计算做了很大的改进,突出的表现在:(1)几乎能计算出花岗岩中所有的矿物,如各类云母、角闪石、堇青石、夕线石,使标准矿物与实际矿物的组成更加接近;(2)部分矿物的化学组成(如云母、角闪石)会随主岩的成分变化而变化,能够反映这些矿物广泛的类质同象特征;(3)对过铝质花岗岩,将铝区分为四次配位和六次配位,使标准矿物组成更接近实际矿物;(4)能正确计算平时罕见的花岗岩矿物组成.本文在简单介绍花岗
目前,模型修复技术应用领域非常广泛,模型修复不仅可以达到完全重放日志的目的 ,还可以最大程度地与原始模型保持相似,能够保留原始模型的价值.因此,越来越多的学者专注于研究模型修复.基于Petri网构建了一个物流派送流程模型,然后将事件日志与流程模型进行一致性检查,主要根据成本对齐测量其偏差,并针对检查到的偏差部分,根据提出的用于辅助模型修复的算法对原始模型进行修复,使得修复后的模型能够完全重放事件日志.最后通过实例分析验证了修复模型的合理性.
为了给采矿扰动下的矿区土地复垦、生态修复及水土资源优化配置提供参考依据,以芦岭矿为研究对象,选取2000~2018a五期Landsat卫星影像数据,借助3S技术及景观生态学理论揭示矿区土地利用景观格局的时空演变规律,再利用CA-Markov模型预测采矿扰动情景下矿区2025a的土地利用变化情况.研究结果表明:在2000~2018a耕地和塌陷水域是芦岭矿区主要的土地利用类型,耕地和建筑用地主要以转出为主,分别减少了11.4%和8.9%,塌陷水域主要以转入为主,18年间增加了13.7%;受采矿活动影响,耕地、