混合属性数据流聚类算法研究

来源 :浙江工商大学 | 被引量 : 0次 | 上传用户:rockegg2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据时代的到来,数据流在很多领域得到应用,作为数据挖掘领域的一大分支,数据流聚类成为一项意义深远而且具有挑战性的任务。现实生活中大部分数据流都是混合属性数据,然而大多数算法都是建立在只有数值属性数据或者只有分类属性数据的基础上。此外数据流的高维、海量、动态、快速等特性对数据流聚类提出了更高的要求。因此,建立高效的混合属性数据流聚类算法,是当前数据流挖掘领域的一个重要任务。为了能用较少的执行时间获得高质量的聚类结果,本文首先对混合属性数据流进行处理,并在此基础上给出了基于合并剪枝的数据流聚类算法,主要研究内容如下:第一,对混合属性数据流进行降维处理。针对现实生活中大部分数据流既有数值属性数据也有分类属性数据的情况,本文提出一种属性映射方法,将分类属性数据转换为数值属性数据,此时数据流将只包含数值属性数据。然后在此基础上,采用min-max标准化方法对所有数值属性数据进行标准化处理,以消除数据之间量纲不一致的问题。最后提出一种改进的局部线性嵌入降维方法将标准化后的数据进行降维,通过引入调和测地线距离取代欧氏距离计算每个样本点的6)近邻,使样本点的整体分布趋于均匀化。第二,提出了基于合并剪枝的数据流聚类算法。针对两阶段式数据流聚类方法在在线阶段微簇维护的过程中耗费大量时间的问题,本文结合混合属性数据流处理过程,提出一种合并剪枝的数据流聚类算法。首先,算法在在线阶段采用一种新的微簇特征向量作为数据结构,来存储数据流概要信息;然后,提出一种合并算法将新到达的数据合并到合适的微簇中,提出一种剪枝算法将长时间未接收数据的微簇删除,以保持有限数量的微簇;最后,在离线阶段响应用户请求,使用密度峰值聚类方法进行最终聚类。第三,设置实验对算法的效果进行评估。通过使用KDDCUP99数据集和银行营销数据集,在两种数据流环境下对本文算法的效果进行评估。实验结果表明,本文算法在聚类纯度、兰德指数、F-measure和执行时间方面与Clu Stream算法及Den Stream算法进行对比具有一定优势。
其他文献
最近几年,越来越多的学者关注到拟人化与人机交互,在拟人化、身份认同及其相关领域做了大量的研究,极大的丰富了相关领域的理论研究。基于拟人化相关理论与身份认同理论,本研究聚焦于心理学中的身份认同理论,探讨拟人化对用户接受度的影响、身份认同的中介作用与机器人产品类型的调节作用。虽然近年来对机器人与拟人化的研究逐渐增多,但一方面,将身份认同作为中介变量来探讨对用户接受度的相关文献暂时还较少,另一方面,大量
在新冠肺炎疫情肆虐的背景下,医护人员纷纷奔赴湖北进行支援,即便面临重重困难依旧坚守一线,不仅为患者提供基础护理治疗,也给予相应的人文关怀,其所提供的服务对于抗击疫情有着举足轻重的作用。医护人员所从事的职业是典型的帮助型职业,需要从业者具有较高的亲社会动机水平,而这也是援鄂医护能够提供高质量护理服务的重要原因。在疫情背景下,病患心理压力倍增,具有亲社会动机的援鄂护士能够提高对于患者观点与需求的敏感度
我国庞大的流动人口一直以来向经济更为发达的大城市流动的倾向较为明显。然而,中国户籍制度改革的渐进性特征,在某种程度上为人口的自由流动增添壁垒,两者之间因此产生了矛盾。在一定程度上我们认为,劳动者向大城市流动是因为他们预期能够通过向大城市流动来提高自己的就业质量。宏观层面上讲,流动人口对经济发展做出的贡献已经得到多数学者的肯定,本文要解决的问题是,从个人层面来说,是不是大城市的流动人口就业质量就更好
学位
Trade is an exchange of goods and services for another;when it takes place across countries,we call it international trade.Some underdeveloped countries are unable to use their mineral resources,so In
学位
Logistics i.e.handling and storage of products is the key to the supply chain and business efficiency.If the benefits of a longer supply chain outweigh the costs,developing more advanced logistics sol
学位
人工智能中一个很重要的组成部分——知识图谱,能将互联网中海量的信息进行有秩序地组织、管理与理解。通用的知识图谱结构是以三元组(实体1、关系、实体2)的形式表示,如何对知识图谱的知识进行更好的表示,使得计算效率与可操作性不断提升,是对知识图谱的整体质量提出的高层次要求。知识图谱表示学习方法旨在将知识图谱的实体与关系表示为低维、稠密的向量,并用于高效的语义计算,在知识图谱的构建、融合以及其他方面发挥重
道线检测在车道偏离预警、自动驾驶等领域具有重要的作用。传统的道线检测根据特定的场景进行道路特征提取,因此在一定程度上难以应对复杂多变的道路环境。随着深度学习技术的快速发展,越来越多的研究者致力于面向深度学习的道线检测技术,拓展了道线检测的研究进程。本文利用深度学习技术分别对基于图像和基于视频的道线检测技术进行了研究,包括:(1)基于图像的道线检测技术。首先,通过聚类分析和人工标注的方式对公开的道线
随着新兴技术不断革新,多源图像方向上的处理技术也越发成熟,在军事、医学图像、监控等方面受到广泛的关注和研究。一般单个传感器捕获的信息在一定程度上已经无法满足我们应用的需求,其具体体现在实用性差、可靠性低。将多个传感器结合,补全其中的不足,构建更加全面的图像系统。考虑到不同图像间的差异,本文将红外与可见光图像融合作为研究案例,针对同一环境下两幅图像,采用融合算法对图像进行融合,融合图像兼具红外与可见
图像去雾旨在去除场景雾霾的同时,保留图像内容,提高图像物体的可见性。图像去雾是图像增强中的一项任务,往往作为其他高级图像视觉任务的预处理步骤,并且在自动驾驶,物体检测等领域有着重要的实际应用价值。在过去的研究中,图像去雾算法发展迅速,获得了良好的去雾结果,但同时也面临一系列问题。本文将针对这些问题展开深入研究,分为以下三个方面:(1)针对现有的雾霾数据集存在基准图像不清晰、残留雾霾、含有噪声,合成