基于簇特征的文本增量聚类研究

来源 :江西师范大学 | 被引量 : 0次 | 上传用户:xia96316
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前,随着网络技术与计算机技术的日益发展,互联网已经成为当前人们获取信息的主要来源之一。面对着互联网上信息日益持续地增长,仅仅使用传统方法想要从大规模的数据中获取自身确切需要的信息已变得越来越难。因此,如何有效的组织和管理这些信息成为当前急需解决的问题,而文本聚类分析正是一种有效的组织和管理文本信息的工具,它能发现大规模数据中潜在的有用模式。然而,对大规模文本数据进行聚类时,传统聚类算法的时间复杂度很高;且当数据出现更新时,必须对整个数据集进行重新聚类,这也大大地降低了聚类的效率。针对这些问题,人们非常期望进行增量更新,而增量聚类算法就是在已有聚类结果的基础之上,通过对新增数据逐个或者批量进行处理,能够降低聚类时间复杂度,提高聚类效率,但如何保证增量聚类算法能达到传统聚类算法的效果是一个值得研究的问题。本文提出了一种基于簇特征的文本增量聚类算法,该算法由初始聚类和增量聚类两个阶段组成。在初始聚类阶段,本文首先充分利用简单、高效的k-means算法进行聚类,并保留聚类后每个簇的簇中心、均值、方差、文档数、3阶中心矩和4阶中心矩作为该簇的簇特征;当出现新增文本时,算法进入增量聚类阶段,首先计算新增文本与初始聚类阶段所得簇之间的得分,为进一步提高聚类的准确度,本文使用文本与簇的相似度值结合欧几里得距离值的方式计算新增文本与已有簇之间的得分,之后将该文本放入得分最高的簇中,并更新该簇的簇特征,最后利用更新前后簇特征的变化确定文本最终所属簇。通过该方法,我们就无需再对整个数据集重新进行聚类。本文的工作主要包括以下两点:1、提出了基于簇特征的文本增量聚类算法,并将该算法与文本非增量聚类算法(即传统聚类算法)的结果进行了比较。在20newsgroups数据集上的实验结果表明,相比于对整个数据集进行重新聚类,本文提出的算法有更高的纯度及更低的时间复杂度,并能达到比传统聚类算法更好的效果;且将其与新近提出的文本增量聚类算法进行比较的结果也说明其具有一定的优势。2、使用将相似度与欧式距离值相结合的方式计算新增文本与已有簇之间的得分,并利用簇特征的变化判断文本最终所属簇。实验结果表明,该方法能有效的提高聚类效果。
其他文献
每当提及对地球生命的威胁时,我们总是想到核战争或小行星碰撞之类的事件,这可能是因为这些事件听起来比单纯的疾病更具破坏力和致命性。然而面对扩散至全球的新冠病毒,我们
食盐加碘是碘强化政策的核心。虽然也可以通过碘化豆油等其他方式补碘,但从全球范围来看,碘盐是绝对的主流。食盐加碘主要分为两个技术流派,分别是用碘化钾以及碘酸钾(或钠盐
从建造水泥池、设计供水系统、泥土堆设、移植水草、鳝种投放、驯饲、投食、巡塘、换水及捕捞等方面总结了水泥池黄鳝的养殖技术。
新中国人民防空工作创立于1950年10月31日。70年来,上海人防的职能,从应急建设到长期准备,再到服务民生,从单一防空到“防空防灾一体化”,再到“战时防空、平时服务、应急支
加强全民国防教育是维护国家安全、捍卫国家利益、实现强国梦、凝聚强军魂的基础。实现强国梦、凝聚强军魂是一项涉及方方面面的系统工程,全民国防教育就是凝聚各方面力量的"
国无防不立,民无防不安。70年前,新中国人民防空成立于艰难之时,努力撑起护民“防护伞”。星移斗转,70年后的今天,人民防空不仅筑起了“地下长城”,更为中国人民铸就了坚不可
1931年2月第二次反“围剿”期间,为了防备蒋介石的飞机轰炸,红一军团指示红军学校工兵连,在毛总政委的住所旁挖个防空洞,确保毛总政委的安全。命令下达后,工兵连的战士们按照
创新是人类进步永恒的主题,是档案事业持续发展的根本动力,随着社会的不断进步和我国经济的快速发展,人们的档案意识逐渐增强,档案和档案工作日益被广大人民群众所认识,社会各界出
根据2001年建设部出台的《城市地下空间开发利用管理规定》及2014年上海市出台的《上海市地下空间规划建设条例》的政策导向,地下空间结合人防工程建设为平战结合以发挥地下
膜蛋白尼曼-匹克C1型类似蛋白1(Niemann-Pick C1 Like 1,NPC1L1)是介导肝脏和小肠细胞从胆汁或食物中吸收胆固醇的关键蛋白质。本文综述了NPC1L1蛋白的结构、功能及其介导肝