文本聚类方法研究及其应用

被引量 : 0次 | 上传用户:k854642
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的不断深入发展,网络上堆积的数据日益庞大,并且大部分数据以文本的形式存储。文本的非数值性、复杂性等特点使得文本挖掘成为数据挖掘相关领域中的热点与难点。在与文本相关的一些应用中,如垃圾邮件甄别,文本分类方法受到了训练样本的限制,无法达到令人满意的效果。文本聚类方法由于具有无监督的学习能力,成为人们寻求解决这些问题的一个重要方向。文本聚类方法主要包括文本表示模型和文本聚类算法。目前大多数文本表示模型都是以词条为基本单位进行建立的,这使得模型数据具有高维与稀疏的特点。在高维数据空间中,聚类往往只存在于某些子空间中,并且不同的聚类所关联的子空间也存在差异。受“维度效应”的影响,传统的聚类算法一般无法直接对高维数据进行有效的聚类,需要通过一些特殊的处理。本文在常用的矢量空间模型(VSM)基础上,以聚类算法为出发点,研究如何基于不同的聚类算法建立相应的文本聚类方法。通过研究传统文本聚类方法的聚类过程,分析了传统方法对于聚类算法的要求,继而提出了一种具有鲁棒性的数据点收缩聚类算法,并在此基础上建立相应的文本聚类方法;通过分析传统文本聚类方法在维度约简方式上存在的不足,提出了一种子空间聚类算法,并在此基础上建立相应的文本子空间聚类方法。本文的主要工作如下:1.研究层次型聚类算法CURE,通过将其代表点收缩的思想与网格密度概念相结合,从而达到对数据分布更为细致的度量,在此基础上提出一种基于数据点收缩的网格聚类算法,并通过实验验证了算法的有效性;2.在网格聚类算法基础上建立了相应的文本聚类方法,并将其应用于垃圾邮件甄别与中文文本聚类领域;3.着重研究了子空间聚类算法,通过分析现有软子空间聚类算法在聚类结果稳定性和初始化方面存在的不足,提出一种专门处理文本数据的子空间聚类算法与相应的初始化算法;4.基于上述子空间聚类算法建立了文本子空间聚类方法并应用于垃圾邮件甄别与中文文本聚类领域;通过实验分析了该方法在维度处理上的优势。
其他文献
电视以其自身视听合一的媒体优势赢得了众商家广告宣传的青睐,如何合理、有效地利用广告费,使之产生最好的广告效果是每一个企业、广告代理商所面临的重大问题。广告效果是广
复旦大学附属中山医院(以下简称中山医院)是卫生部和教育部部属大型综合性教学医院。开业于1937年,为纪念中国民主革命的先驱孙中山先生而命名,是当时中国人管理的第一所大型
新世纪基础教育课程改革以来,对话成为课堂教学的理想追求,在追求对话的教学中,课堂提问备受重视。但是,当我们深入考察当前的课堂教学实践,不难发现相互关联的两个问题:一方
在国家大力推行城镇化的背景下,农民未来城镇定居意愿成为国家政策能否顺利推行的关键。国内已有研究多集中于农民工群体,而对农村居民整体的城镇定居意愿分析较少。基于2010
旅游不是古镇的唯一目的。旅游与其他经济活动的发展都使古镇风貌发生改变,给古镇旅游的可持续发展带来很大问题。本文从古镇旅游开发的特点说起,从三个方面探讨了如何在古镇
目的观察不同浓度七氟醚对人鼻咽癌细胞株CNE2黏附能力、CD133表达的影响。方法分为四组:对照组(Control组)、1.7%七氟醚组(Treat1组)、3.4%七氟醚组(Treat2组)和5.1%七氟醚
当前幼儿园园本课程开发的现状存在着课程开发与课程负担的冲突,课程资源开发利用的结构单一,教师缺乏课程资源开发的综合知识与能力,幼儿园缺乏广泛有力的社会支持等问题。
方力钧在近几年进行了大量的旅行,旅行中的地理、风俗、人情包括艺术样式,部成为一种特别贴合的呈现方式展现在艺术家的视野。文化生成过程中的种种外来因素、地方因素、及人为
在报刊上登载“讣告”,是包括新马在内的东南亚华人在处理死亡时的一个重要步骤,并已成为当地华人社会的一项传统习俗。本文根据从《南洋商报》(1951-1976)采集的讣告资料,对
资源型城市转型已经成为一个不可逆的趋势。本文选择资源型城市的转型过程中的政府行为为研究对象。认为其转型就是要实现资源型城市产业的转型和城市再城市化,在这个过程中,