论文部分内容阅读
随着社会信息化的发展,以文档形式存在的信息记录,其数量越来越多,积累速度越来越快,类别也越来越丰富。对文档进行高效的利用是目前关注的重要热点。文档聚类分析就是对文档进行高效利用的重要方法。文档聚类算法根据文档的属性特征,对文档进行划分,即相似度高的文档聚集在同一类中,而不同类之间的文档则具有较低的相似度。本文对大规模文档聚类的关键技术开展了研究,提出了适合并行的无干预文档聚类算法,包括对主题词抽取、初始种子选择、文档聚类算法及其并行化等关键技术的研究。本文首先对文档聚类相关的关键技术研究现状进行了分析,总结了具有代表性的研究成果及其特点,并在此基础上开展了如下所示的研究工作。首先,提出了基于距离因子的主题词抽取方法和基于单连通最短路径图的初始种子选择方法。本文在传统的基于TF-IDF的特征项选择基础上,增加了距离因子。通过距离因子对特征项进行进一步的筛选和更有效的排序,从而从多个候选特征项中选择出最能够表达文档意义的特征项。在此基础上,通过词聚类进行主题词的类别划分,然后从聚类形成的不同类别中挑选出最有代表性的作为主题词抽取。在完成了文档主题词抽取后,本文进一步提出了基于单连通最短路径图的初始种子聚类方法,从而可以在密度大的区域进行初始种子选择,同时也可以将种子分散在数据空间,以选择出合适的初始聚类种子。其次,本文提出了基于茎叶点图(Stem-Leaf-Point Plot, SLPP)的文档聚类算法SLPPCA (SLPP Clustering Algorithm)。通过分析茎叶图的特点,并在茎叶图“茎”和“叶”的分类基础上,增加了“叶点对”,形成茎叶点图。在进行文档聚类时,首先对数据空间构造茎叶点图,形成初步的数据对象分类。在此基础上,通过对边界点的界定来构造边界点集合,并找到各数据区域的内部点集合。然后通过边界点集合和内部点集合来进行聚类。以茎叶点图为基础进行聚类,能够对数据集合进行预处理,将数据集合按照数据之间的相似性和差异进行分类。因此,SLPPCA能够自行计算出聚类数目,并无干预的完成聚类任务。再次,本文对并行处理环境下文档聚类的方法进行了研究。针对多核处理器当前研究与应用现状,以及多线程模型的特点,提出了对SLPPCA进行并行化的方法。其中,通过对串行SLPPCA步骤的剖析,将其可并行部分分解出来。同时,本文进一步提出了SLPPCA并行化的方法,将SLPPCA的并行与多线程关联起来,形成了SLPPCA的多线程并行优化。通过实现并行化多线程SLPPCA,使该模型对文档的聚类可以并行执行,提高了SLPPCA的执行速度,充分利用了新技术发展带来的丰富资源,实现了高效的文档聚类。最后,本文的研究工作针对文档聚类的特点,提出的基于距离因子TF-IDF的主题词提取方法;设计了基于单连通最短路径图的聚类种子选择;以及了基于茎叶点图的文档聚类算法;研究了SLPPCA算法的并行多线程优化。本文的理论研究工作在实验中得到了验证,实验结果表明本文的研究工作能够无干预的对大规模文档集合进行并行处理,提高了文档聚类的效率和质量,是一种高效的文档聚类算法。