论文部分内容阅读
随着大数据的飞速发展,交通、医疗、电信等各个领域都产生了海量的数据,分析并挖掘出海量数据内部隐含的信息并用以辅助决策越来越重要。数据挖掘是一种分析海量数据内部潜在规律的重要手段,可以自动寻找数据中包含的模式和趋势。而聚类是一种重要的数据挖掘方法,在图像处理、模式识别、知识发现等领域都有着重要的应用。然而,数据量的大规模增长对聚类算法的运算精度和运算时间都有着较高的要求,因此聚类算法也需要不断改进以适应大规模数据的需求。城市热点区域一直被视为研究居民流动规律的重要手段,而出租车的GPS数据具有易获取、应用价值高、数据量大等特点,因此使用出租车数据进行城市热点区域的提取与分析,得到的结果可以为人们出行提供合适的指导并提高城市资源的利用效率。基于密度的聚类算法具有对异常点不敏感、可以聚类任意形状的簇等优点。2014年Alex等人提出了一种密度峰值聚类算法(DPC),它是一种新的基于密度的聚类算法,该算法只需要计算两个参数:局部密度?和高密度距离?,算法的计算过程简单并且无需事先指定聚类中心,因此迅速得到了广泛的应用。但是DPC算法在聚类时需要计算所有数据点之间的相关参数,因此算法的时间复杂度和空间复杂度较高,难以应用到大规模数据集。为此,本文通过引入网格划分和K近邻方法的思想,提出了两种改进后的基于密度的聚类算法:网格密度峰值聚类算法(GRID_DPC)和网格K近邻密度峰值聚类算法(GRID_KNN_DPC)。通过将数据空间划分为相等的网格单元并选取网格代表点的方法,所有的计算均基于网格代表点进行。通常网格代表点的数目远远小于数据点的数目,因此两种新算法降低了原算法的时间复杂度和空间复杂度,在保证运算精度的前提下极大提高了原算法的运算效率。本文还使用仿真数据集将提出的两种新算法与DPC算法、仿射传播算法、K-centers算法等经典聚类算法进行运算时间和运算精度的对比,验证了两种新算法的有效性以及在大规模数据集上运算效率的优越性。改进后的算法还被应用到纽约市的出租车数据集上,进行城市热点区域的提取与分析。本文使用改进后的算法寻找工作日和周末的热点区域并对比分析、观察节假日期间热点区域的相关情况、观察簇间和簇内热点区域的连接紧密程度,得到的结果揭示了纽约市出租车乘客活动的相关规律,并可以用于帮助出租车司机进行更好的路线规划及解决城市交通拥堵等问题。