论文部分内容阅读
随着计算机水平的迅猛发展,特别是近年来“互联网+”、云平台等应用于各行各业,各类数据海量增长,而这些海量数据的背后往往蕴含着非常丰富的信息,依靠传统的数据检索、分析方法和数据管理模式已不能满足我们获取及管理数据的需要。因此,数据挖掘技术成为解决当今社会如何快速获取有用信息的方法之一。聚类分析作为典型的非监督的描述类统计技术手段,在现今各行各业中应用广泛。K-means算法是聚类分析中基于划分的动态聚类算法,由于其简单易操作,被广泛应用,但该算法有着自身的不足,如对孤立点和初始点敏感、适合发现球类簇等。在这些不足中,初始质点和孤立点直接影响着聚类算法的运行时间及运行效果,且目前尚没有统一的方法对孤立点及初始质点的选取进行说明。因此本文针对以上问题,主要做了如下改进:(1)首先根据孤立点对实验的影响程度及在统计学中标准分数和标准偏差的定义,数据结构差异较大的数据集在经过标准化处理及偏差统计后,数据集的相异度往往减少的现象,提出了利用标准分数与偏差去除孤立点的思想;其次根据K-center算法对孤立点较传统K-means算法鲁棒性强的特性,对传统的距离乘积法进行了一定的优化,再次,由于在统计学中常以标准分数及偏差来衡量整个数据集的离散程度,故提出了用最小的标准偏差代替数据集中最高密度的思想。最后用UCI数据库中Iris、Wine、Balance-Scale、Glass数据集进行仿真模拟,验证算法的可行性。(2)在实际应用方面,由于近年来“互联网+”的影响,数据呈“爆炸式增长”,而文本又多以信息载体的形式更多的出现在人们日常生活中,故本文重点以文本数据聚类为研究对象。针对文本数据的特点,本文在已有的研究成果上,尝试将标准偏差去除强孤立点及选取初始中心点的思想应用于稀疏数据。实验表明,本文算法比传统K-means算法在性能上有一定的提高。