基于改进CHIR-TCFS算法的中文短文本聚类方法研究

来源 :杭州电子科技大学 | 被引量 : 0次 | 上传用户:yogonet
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的迅猛发展,我国已经处于信息化和数字化时代,文字作为信息的重要载体,文本挖掘在各个领域中扮演着越来越重要的角色,在文本挖掘工作过程中,聚类是一种十分重要且常见的手段,聚类的目的直观上来讲大致如下:将待聚类文本集合中相似程度较高的样本归为同一类别,相似程度低的样本归到不同的类别中去,即按照各个样本间的相似程度将样本集合划分为若干类别。聚类过程是无监督的,它不需要人工为其提供带有标记的训练样本,所以聚类更简便、更智能,也因此被广泛应用于文本处理、模式识别等领域。近些年来,短文本大量出现在即时通讯、微博评论、业务投诉等众多领域。短文本具有精炼程度高、用词少、涉及领域广泛、形式多变、数量庞大等特点,而传统的文本聚类方法针对短文本不能达到令人满意的效果,所以对短文本的聚类逐渐成为了文本挖掘领域的主要挑战。目前,已经有一些用来对长度较短的文本进行聚类处理的方法。其中CHIRTCFS(CHIR-Text Clustering with Feature Selection)算法是建立在通过卡方检验来选择特征的聚类方法,同时该算法解决了特征选择过程中需要监督的问题,具有优良的聚类效果。本文首先针对该聚类算法在特征选择方面的不足,对基于信息增益特征选择方法和基于TF-IDF特征选择方法进行了改进,提出了一种初次改进的CHIR-TCFS算法。该改进算法有效提高了特征选择的准确性,同时弥补了原聚类算法不能有效处理非平衡数据集合的缺陷。另外,针对原算法在选择原始聚类中心时的缺陷,本文提出了一种基于基样本点的原始聚类中心平均散布的方法,解决了原始聚类中心过于接近的问题,提高了样本初始类别标签的准确性。之后通过实验验证了该改进方法的有效性。最后,在初次改进的CHIR-TCFS算法的基础上,为了提升聚类算法的效率,使其针对规模更大的文本集合仍然能够表现出良好的聚类效果,本文提出了一种表征能力弱的特征排斥的相似指标计算方法。同时,充分利用了文本中表征能力较强的特征的优势,提出了一种快速收敛聚类算法,使得每次确定聚类中心时都能使其以更快的速度逼近最终真实的聚类中心。本文中设计的对比实验的结果表明,快速收敛聚类算法拥有更高的效率和更好的聚类效果。
其他文献
高抗冲聚苯乙烯(HIPS)由于其优良的力学性能、加工性能等被广泛应用于日常生活和工业生产的各个方面。然而HIPS极易燃烧,火安全性较差,添加阻燃剂是一种改善其阻燃性的重要方法。氢氧化镁(MH)是目前公认的环境友好型阻燃剂,常被用来对HIPS进行阻燃改性。但MH耐水、耐酸性差,目前国内外缺少对添加MH的阻燃复合材料的耐化学腐蚀性能的针对性研究。本论文以HIPS为基体和MH为阻燃剂,采用熔融共混法制备
本次翻译实践报告的源语文本节选自周星林所著《蒋翊武评传》的第四章。近年来,中国文化在世界上得到越来越多的关注,中国文学作品也受到了越来越多读者的喜爱,因此准确且高质量的汉英翻译变得越来越重要。此次翻译实践以奈达的功能对等理论作为理论基础,其核心概念为在翻译实践中实现源语与译文功能上的对等。该理论注重翻译中的等效原则和读者反应,追求与源语信息最自然的对等翻译。在本翻译报告中使用这一翻译理论对于指导本
目的:复方中药丹蒌片来源于国医大师雷忠义教授加减《金匮要略》名方——瓜蒌薤白白酒汤,用于治疗冠心病痰瘀互结证,本课题组前期实验发现丹蒌片可以减少小鼠心肌缺血再灌注损伤后心律失常的发生率。自噬则是真核生物细胞内广泛存在的在应激状态下分解回收自身蛋白质的生理机制。本研究专注于心脏缺血再灌注后内皮细胞的自噬现象,通过构建体内体外模型,研究丹蒌片及丹参酮ⅡA(丹蒌片主要单体成分之一)是否对缺血再灌注导致的
随着科技的发展人们对运动服装面料的要求越来越高,热敏变色面料越来越吸引人。本文通过资料信息搜集及市场调研发现,目前感温变色面料或服装的颜色变化大都从有色到无色或浅
目的:运用随机对照的临床研究方法,比较针刀联合特定电磁波谱(TDP)和针刺联合特定电磁波谱照射治疗枕神经痛的疗效差异,分析两种疗法的优劣之处,从而为临床提供更高效的治疗方案。方法:招募60名广州中医药大学第一附属医院针灸科门诊的患者,就诊时间为2019年1月至2019年12月期间。经过简单随机化分组法将他们划分为两组,其中,治疗组受试者接受针刀松解治疗,加上特定电磁波谱治疗仪照射,每7天松解1次,
随着部分地区对炼焦煤使用量的限制以及高炉对焦炭质量要求的提高,有些焦化企业不得不通过优化配煤方案以及改变结焦时间来节约成本和稳定焦炭质量。通过常规配煤方案和在常规配煤的基础上增加3%焦煤的方案进行小焦炉实验,分析了配煤方案所涉各个煤种的性质和两种配煤方案在不同结焦时间下所炼焦炭的机械强度、焦炭热性质以及焦炭结构特征,探讨延长结焦时间对不同配煤方案所炼焦炭质量的影响规律。结果表明:在常规配煤方案条件
视觉目标追踪是计算机视觉领域的研究热点之一,在无人驾驶,智能安防、人机交互和信息侦查等领域都有十分重要的应用价值。由于真实环境中目标的表观信息和环境背景都具有复杂
目前,装配式混凝土结构已成为我国建筑结构发展的重要方向之一。它不仅与国家所提倡的绿色环保建筑相契合,也有利于提高施工效率。在实际工程中,钢筋套筒灌浆连接既能保证装配节点的设计质量,其承载力又可做到与现浇结构相当,是目前主要的连接方式。同时,灌浆套筒连接也会存在一些施工缺陷,如套筒内灌浆不密实等,这些都会严重影响工程结构的安全性。为此,相关人员采用试验手段和有限元分析手段等,对灌浆缺陷下的装配式混凝
《诗经》中的祭祀诗记载了商周时期人们对天地神明、远近祖先的祭祀和歌颂,是先民生活的剪影,是早期社会精神文化的主流部分。本文以《诗经》祭祀诗中的祭祀对象作为研究主体,共分为四个部分展开研究。绪论部分阐述本文的研究对象及研究缘起,综述学术界目前对《诗经》祭祀诗祭祀对象以及相关专题的研究现状,针对当前研究中存在的问题,提出本文的研究方向、研究方法、研究范围及研究意义。第一章对《诗经》祭祀诗中可考证的祭祀
一个国家的发展离不开各式各样的市场,特别是资本市场。此外,译者越来越关注如何在有限的时间内翻译出合格的译文。机器翻译加后期编辑是提高效率的一种可行性较高的解决方案。研究出机器翻译加后期编辑是否实用以及何时适用具有重要的现实意义。在作者实习的公司里,她被规定需在一个月内翻译完《股票分析学》。因此,作者选择了百度翻译作为辅助。翻译理论结合翻译技巧,再对机器翻译的译文进行译后编辑,能够提高译文的准确性。