论文部分内容阅读
随着互联网的不断深入发展,网络上堆积的数据日益庞大,并且大部分数据以文本的形式存储。文本的非数值性、复杂性等特点使得文本挖掘成为数据挖掘相关领域中的热点与难点。在与文本相关的一些应用中,如垃圾邮件甄别,文本分类方法受到了训练样本的限制,无法达到令人满意的效果。文本聚类方法由于具有无监督的学习能力,成为人们寻求解决这些问题的一个重要方向。文本聚类方法主要包括文本表示模型和文本聚类算法。目前大多数文本表示模型都是以词条为基本单位进行建立的,这使得模型数据具有高维与稀疏的特点。在高维数据空间中,聚类往往只存在于某些子空间中,并且不同的聚类所关联的子空间也存在差异。受“维度效应”的影响,传统的聚类算法一般无法直接对高维数据进行有效的聚类,需要通过一些特殊的处理。本文在常用的矢量空间模型(VSM)基础上,以聚类算法为出发点,研究如何基于不同的聚类算法建立相应的文本聚类方法。通过研究传统文本聚类方法的聚类过程,分析了传统方法对于聚类算法的要求,继而提出了一种具有鲁棒性的数据点收缩聚类算法,并在此基础上建立相应的文本聚类方法;通过分析传统文本聚类方法在维度约简方式上存在的不足,提出了一种子空间聚类算法,并在此基础上建立相应的文本子空间聚类方法。本文的主要工作如下:1.研究层次型聚类算法CURE,通过将其代表点收缩的思想与网格密度概念相结合,从而达到对数据分布更为细致的度量,在此基础上提出一种基于数据点收缩的网格聚类算法,并通过实验验证了算法的有效性;2.在网格聚类算法基础上建立了相应的文本聚类方法,并将其应用于垃圾邮件甄别与中文文本聚类领域;3.着重研究了子空间聚类算法,通过分析现有软子空间聚类算法在聚类结果稳定性和初始化方面存在的不足,提出一种专门处理文本数据的子空间聚类算法与相应的初始化算法;4.基于上述子空间聚类算法建立了文本子空间聚类方法并应用于垃圾邮件甄别与中文文本聚类领域;通过实验分析了该方法在维度处理上的优势。