网格密度峰值聚类算法及城市热点区域提取

来源 :大连理工大学 | 被引量 : 0次 | 上传用户：jianweify

【摘要】

：

【作者】

：

那珍娜

【出处】

：

大连理工大学

【发表日期】

：

2019年01期

【关键词】

：

数据挖掘密度峰值聚类网格划分热点区域提取

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着大数据的飞速发展,交通、医疗、电信等各个领域都产生了海量的数据,分析并挖掘出海量数据内部隐含的信息并用以辅助决策越来越重要。数据挖掘是一种分析海量数据内部潜在规律的重要手段,可以自动寻找数据中包含的模式和趋势。而聚类是一种重要的数据挖掘方法,在图像处理、模式识别、知识发现等领域都有着重要的应用。然而,数据量的大规模增长对聚类算法的运算精度和运算时间都有着较高的要求,因此聚类算法也需要不断改进以适应大规模数据的需求。城市热点区域一直被视为研究居民流动规律的重要手段,而出租车的GPS数据具有易获取、应用价值高、数据量大等特点,因此使用出租车数据进行城市热点区域的提取与分析,得到的结果可以为人们出行提供合适的指导并提高城市资源的利用效率。基于密度的聚类算法具有对异常点不敏感、可以聚类任意形状的簇等优点。2014年Alex等人提出了一种密度峰值聚类算法(DPC),它是一种新的基于密度的聚类算法,该算法只需要计算两个参数:局部密度?和高密度距离?,算法的计算过程简单并且无需事先指定聚类中心,因此迅速得到了广泛的应用。但是DPC算法在聚类时需要计算所有数据点之间的相关参数,因此算法的时间复杂度和空间复杂度较高,难以应用到大规模数据集。为此,本文通过引入网格划分和K近邻方法的思想,提出了两种改进后的基于密度的聚类算法:网格密度峰值聚类算法(GRID_DPC)和网格K近邻密度峰值聚类算法(GRID_KNN_DPC)。通过将数据空间划分为相等的网格单元并选取网格代表点的方法,所有的计算均基于网格代表点进行。通常网格代表点的数目远远小于数据点的数目,因此两种新算法降低了原算法的时间复杂度和空间复杂度,在保证运算精度的前提下极大提高了原算法的运算效率。本文还使用仿真数据集将提出的两种新算法与DPC算法、仿射传播算法、K-centers算法等经典聚类算法进行运算时间和运算精度的对比,验证了两种新算法的有效性以及在大规模数据集上运算效率的优越性。改进后的算法还被应用到纽约市的出租车数据集上,进行城市热点区域的提取与分析。本文使用改进后的算法寻找工作日和周末的热点区域并对比分析、观察节假日期间热点区域的相关情况、观察簇间和簇内热点区域的连接紧密程度,得到的结果揭示了纽约市出租车乘客活动的相关规律,并可以用于帮助出租车司机进行更好的路线规划及解决城市交通拥堵等问题。

其他文献

小学科学教学对学生错误认知资源的有效利用

科学是一门综合性的学科,依托小学生的认知与理解水平,在学科内容解读过程中依凭其尚未成熟的惯性思维发生错误认知的概率不可消除且具有高度的频繁性。对此错误认知的忽略或

期刊

小学科学错误认知资源利用

围绝经期妇女的避孕

为避免非意愿妊娠,围绝经期妇女仍需坚持避孕,直至绝经。就方法学而言,至今没有哪类避孕措施对年龄的增长有所限制。由于40岁以上妇女本身生理状况的变化,会增加避孕方法选择

期刊

妇女围绝经期避孕计划生育

食品致癌物杂环胺的生物标记物的研究进展

高温烹调加工肉类食品过程中所产生的杂环胺（HAAs）是一类具有致突变,致癌作用的物质。相关流行病研究显示,长期摄入高温烹调的、富含HAAs的肉类食物,提升了前列腺癌、乳腺癌、

期刊

杂环胺致癌物生物标记物代谢物加合物

基于无位置传感器的永磁电机控制技术综述

永磁同步电动机由于其固有的优点，得到了广泛的应用。本文讨论了永磁同步电动机调速系统中广泛采用的无位置传感器技术。无位置传感器可以分为两大类：基于电磁关系和基于各种观

期刊

永磁同步电动机无位置传感器控制技术

不同专业英语学习者的英语语音自我概念和语音意识的相关研究

在对中国学习者英语学习的研究中,英语语音学习受到了越来越多研究者的关注。其中英语语音自我概念与语音意识,因其与学习者语音成绩与语音能力之间的相关性,也逐渐成为语音学习研究的重要内容。在对语音意识的研究中,研究者们多以学龄前儿童作为研究对象,更多对其母语语音意识进行研究。而对大学生的二语语音意识的研究不多,研究其与语音自我概念之间的相关及不同专业之间的异同少之又少。本文旨在调查英语专业,非英语专业,

学位

自我概念语音意识英语专业非英语专业二专英语

河北省去产能背景下待岗职工再就业的路径选择

去产能是实现经济结构转型升级和环境保护的必然过程,是国家宏观调整的大政方针。如何妥善安置下岗职工,既是经济发展问题,也关乎社会稳定。本文针对河北省去产能过程及失业

期刊

去产能失业下岗职工再就业职业教育

PPP模式下衍生的会计问题研究

在国家不断加强基础设施投资建设的背景下,PPP模式因其能够引进社会资本、缓解财政压力、提升公共服务质量和效率等优点受到大家青睐,但因为缺乏统一的规范性文件指导,在具体

期刊

PPP模式BOT项目会计核算

少数民族女性就业状况及其对经济社会发展的影响

少数民族女性参与经济活动和就业,不仅是妇女社会地位提高的标志,也是社会现代化水平的标志,全国第六次人口普查数据表明,我国少数民族女性人口基本现状、就业人口特征、行业

期刊

少数民族女性就业民族地区经济发展

从“路径依赖”到“文化自觉”——社会化媒体时代农家书屋发展模式转型

社会化媒体日益显现出强大影响力，在其迥异于传统的信息传播模式日渐向农村渗透这样一个外在的社会大背景下，结合目前农家书屋由政府主导的模式体系所存在的先天缺陷和“路径依

期刊

社会化媒体农家书屋路径依赖发展模式

黄土高坡上的阳光跑操——陕北延安职业技术学院附属中学大课间操纪实

漫步校园中，除了能领略到学生活动时的精彩瞬间，不难发现这里还处处洋溢着垒球文化的浓浓气息，橱窗中展示着一张张由学生自己设计的班级徽标作品，这是学生创意与灵感火花碰撞的结

期刊

延安职业技术学院班级凝聚力

网格密度峰值聚类算法及城市热点区域提取

其他学术论文