基于改进的k-means算法的新闻聚类的研究

来源 :电脑知识与技术 | 被引量 : 0次 | 上传用户:lrqnm
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:针对k-means聚类算法对初始聚类中心敏感,容易陷入局部最优的情况,提出一种改进的基于k-means算法的新闻聚类方法。在用传k-means算法对新闻数据集进行多次聚类的基础上,使用證据累积算法对k-means算法的聚类结果进行融合,以平滑k-means算法的结果,减少波动。实验结果表明提出的方法使聚类结果的准确率从53.33%提升至77.78%。
  关键词:k-means;新闻;聚类分析;融合;分级聚类
  中图分类号:TP391 文献标识码:A
  文章编号:1009-3044(2020)10-0201-03
  随着互联网的高速发展,人们已经迈向了一个信息化的时代,互联网上的信息交流和获取逐渐取代了传统的电视、报纸、书信等传统媒体。截至2019年6月,中国网民规模为8.54亿人,互联网普及率达61.2%,网站数量518万个。人们每天通过浏览器或者新闻APP看新闻产生大量点击记录,对人们点击的海量新闻进行分析,可以获知特定时间和特定范围内公众最关心的热门事件,进而可以在信息爆炸的互联网时代帮助人们更快、更好、更有效地获取有用的信息。如何快速、有效地在海量新闻浏览记录中发现其中的趋势和主题,不仅能够帮助个人更准确地了解全社会关注的热点事件,同时还能辅助国家及时发现网络舆情事件、趋势,在网络舆情分析、重大网络事件监测防御、信息网络安全等领域具有极其重要的现实意义。
  聚类分析旨在分析数据过程中发现数据对象之间的相互关系,将数据依据一定原理进行分组,各分组结果内的相似性越大,各分组之间的差别就越大,聚类效果越好。k均值(k-means)聚类算法具有快速、简单的特点,对大数据集有较高的分析效率。
  本文提出了一种结合k-means算法与分级聚类算法的方法,利用k-means算法对预处理过的新闻数据集进行多次聚类,然后用证据累积算法融合多次聚类得到的结果,减少波动。本文对搜狐新闻数据进行分析,考查本文方法的聚类效果,并与传统k-means算法的聚类效果进行比较,体现本文方法的优势。
  1算法简介
  1.1k-means算法
  k-means算法采用迭代更新的思想,该算法的目标是根据输入的参数k将数据对象聚成k簇,其基本思想为:首先指定需要划分的簇的个数k值,随机地选择k个初始数据对象作为初始聚类或簇的中心;然后计算其余的各个数据对象到这k个初始聚类中心的距离,并把数据对象划分到距离它最近的那个中心所在的簇中,然后根据公式:
  1.3 k-means算法优缺点
  k-means算法是解决聚类问题的经典算法,这种算法简单快速。当结构集是密集的,簇与簇之间区别明显时,聚类的结果比较好。在处理大量数据时,该算法具有较高的可伸缩性和高效性。
  但是,目前传统的k-means算法也存在着许多缺点:
  (1)k-means聚类算法需要用户事先指定聚类的个数k值。在很多时候,在对数据集进行聚类的时候,用户起初并不清楚数据集应该分为多少类合适,对k值难以估计。
  (2)对初始聚类中心敏感,选择不同的聚类中心会产生不同的聚类结果和不同的准确率。随机选取初始聚类中心的做法会导致算法的不稳定性,有可能陷入局部最优的情况。
  1.4分级聚类算法
  分级聚类是一种自底向上的聚类方法。它的主要思想是:首先将每个样本自定义为一类,然后逐步合并,直到最后聚为一类或者达到要求为止。
  对于给定的n个样本集合x={x1,x2,...xn},分级聚类方法的具体步骤如下:
  (1)x中每个样本Xi均自成一类ci,这样就构建了一个初始聚类C={c1,c2,...,cn};
  (2)计算c中每对类(ci,ci)之间的相似度sim(ci,cj);
  (3)选择最大相似度的类对Max(sim(ci,ci)),并将其合并为一个新类Ck-CiUci,构成一个新的聚类c={c1,c2,...,ck..,cn-1};
  (4)如果C中只有一个类或C已经达到要求,则结束;否则转到(2)。
  分级聚类实际上将产生一棵树,底部叶子结点代表n个样本,根结点为最后聚为一类的情况,中间的某层代表其中的一种聚类。
  2改进的k-means算法
  传统的k-means算法对初始聚类中心敏感,聚类结果随不同的初始聚类中心而波动。针对k-means聚类算法中随机选取初始聚类中心的缺陷,本文提出了一种改进的方法,步骤如下:
  (1)准备好数据集D={d0,d1,d2,...,dn-1},数据集中共有n条数据。
  (2)对簇的数目k取2到19,对于每一次聚类结果,计算惯性权重,画出k值一惯性权重折线图,根据肘点法,选择最合适的簇的数目k1。
  (3)使用k-means聚类算法对数据集进行多次聚类,每次聚类,k从区间[k1-m,k1 j]随机取值(m
其他文献
科学技术发展的同时,计算机图像处理技术日益完善,运用此项技术于UI设计行业,能够呈现良好的设计效果。目前,Photoshop软件向多功能、人性化方向发展,这为界面设计工作提供了软件支持。该文在UI设计介绍的基础上,分析计算机图像处理技术在操作方面、功能方面具备的优势,最后探究该技术在UI设计中的应用步骤及具体应用。
介绍集散控制技术在船闸监控系统工程中的具体应用,采用先进的计算机技术、自动控制技术、网络通讯技术、互联网技术、图形显示技术构建全开放分布式船闸监控管理系统,实现对
在计算机视觉检测中,广泛应用张正友标定法进行相机标定。但是至少需要三次或更多次地拍摄标定物,这需要烦琐的人工操作,难以实现相机标定的自动化。基于张正友标定法,该文提出了一种基于稀疏字典学习的相机标定方法。该文根据张正友相机标定模型,在相机的不同焦距下,离线获取大量标定图像,计算出不同焦距下的内参参数,并以此构造稀疏字典。当在线使用该相机的时候,根据一幅图像和该稀疏字典进行相机标定,可以获得非常好的
分析鞋类造型仿真设计体系构成内容及影响因素,对鞋类造型仿真设计流程进行模块化分解,选择仿真设计技术开发平台,提出鞋类造型仿真设计技术开发的具体方法和技术路线。
二维码技术已成功通过图像编码解码为网络URL地址提供了别名,即将网络地址转换为二维码图像。在义务拍摄证件照服务活动中,本系统基于此特性提供了使用二维码扫描方式下载获取电子照片的功能,提高了服务效率,有一定的参考应用价值。
与普通的神经网络非常相似,CNN卷积神经网络也由具有可学习的权重和偏置常量的神经元组成。每个神经元都接收一些输入并做一些点积计算,输出是每个分类的分数,普通神经网络里的一些计算技巧依旧适用。该文介绍了基于CNN卷积神经网络的手势识别系统,首先对不同的手势图片进行采集,将采集结果作为训练集和测试集,系统将会对其进行识别。
通过对2015—2016赛季CBA总决赛四川队和辽宁队5场比赛双方队伍结构、技战术运用进行统计与分析,研究认为:四川队在阵容结构,战术安排和运用等方面优于辽宁队。其中心理素质过