并行层次聚类技术研究

来源 :湖南大学 | 被引量 : 0次 | 上传用户:assasad
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类分析是数据挖掘的重要研究领域之一,在工程、商业、生命科学、社会科学以及其他许多领域得到了广泛的应用。但由于聚类对象在高维特征空间分布的复杂性,聚类效果评价的不确定性和灵活性,以及聚类作为一个优化问题求解的高计算复杂性,聚类算法仍然面临着众多的问题和挑战。目前,研究者提出了大量的聚类算法。其中层次聚类算法是其中的主要方法之一,受到了大量学者的密切关注。目前最好的串行算法的时间复杂性可达到O(n~2),但依然难于处理生物信息学或入侵检测中的海量数据;并行算法目前多基于CREW-PRAM或CRCW-PRAM模型,其运行成本不低于O(n~2)。这些算法多使用随机或概率算法,而且算法中的处理器数目无法根据运行环境改变,也没有考虑各并行处理器对共享存储器的存储冲突。本文通过利用完全图求欧几里德最小生成树算法和无存储冲突的连通分支确定算法,提出一种基于EREW-SIMD共享存储模型的无存储冲突并行层次聚类算法,其成本为O(n~2)。通过与其他算法性能比较,比较结果说明本文提出的算法在保证存储无冲突的前提下,能以最优的成本在最弱的PRAM—EREW模型运行,且处理器可根据实际可用的计算资源动态调整。为了验证本文算法的性能,利用基准测试数据集在高性能计算中心的IBMP690机器上进行了计算实验。实验结果表明:本文算法在计算时间和空间上具有一定的比较优势,对大规模数据集具有较强的可扩展性。
其他文献
机器学习 (知识获取) 的目标是将大量数据中所隐含的知识发现出来,也就是将知识从人们难于理解、操作和使用的数据表达形式转化为便于人们理解、操作和使用的决策规则形式的表
笔式交互是一种“以人为中心”的自然交互方式,其具有便利性、自然性和可控制性的特点。F-Tablet手写板是一种基于力的手写输入设备,计算机把通过其捕获到的书写者书写时的力信
决策树归纳学习算法是目前商业数据挖掘工具中使用最为广泛的算法之一,因其形状像树且应用于决策而得名。它是一种逼近离散值目标函数的归纳推理方法,在这种方法中学习到的函
由波兰学者z.Pawlak于1982年提出的粗糙集理论是一种新的处理不确定性知识的数学工具。经过二十余年的研究与发展,粗糙集理论已经在理论和实际应用中取得了长足的进展。由于该
学位
随着网络的不断发展,网络在人们生活中的地位显得越来越重要,用户对网络的需求不断发生变化,要求传输的信息种类越来越多,要求提供的服务质量也越来越高。计算机网络系统的瘫痪可
粗糙集理论是波兰学者Z.Pawlak于1982年提出的一种数据分析理论。该理论建立在论域中的不可区分关系之上,用上、下近似来描述概念,无需任何先验知识或附加的信息,就能有效地分析
嵌入式计算机是现代计算机技术改造传统产业、提升许多领域技术水平的有力工具,在数字化语言学习终端上有着广泛的应用。PXA255处理器是Intel公司生产的专用标准嵌入式计算机,
大规模的数据计算需要巨大的计算资源。因此,许多计算能力有限的客户端无法完成这种计算任务。幸运地是云计算的出现为大规模的数据计算提供了有效的解决方法。大规模数据计算
随着计算机计算能力的迅速提高,计算机的广泛普及以及Internet的迅速发展,个人信息的安全性正变得岌岌可危。传统的数据加密技术可以部分的克服信息的随意散布,但随着破译技