CPU/GPU混合编程模型上的并行谱聚类实现

来源 :南开大学 | 被引量 : 0次 | 上传用户：zl168

【摘要】

：

谱聚类作为极具竞争力的聚类算法，目前已经取得了较广泛的应用。谱聚类算法本质是通过特征分解，将原始的高维数据空间映射到特征向量空间，即低维的线性测度空间，然后对特征向量空

【作者】

：

焦晓帆

【机构】

：

南开大学

【出处】

：

南开大学

【发表日期】

：

2014年期

【关键词】

：

谱聚类混合编程模型流水机制数据处理空间复杂度

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

谱聚类作为极具竞争力的聚类算法，目前已经取得了较广泛的应用。谱聚类算法本质是通过特征分解，将原始的高维数据空间映射到特征向量空间，即低维的线性测度空间，然后对特征向量空间中的数据点进行聚类，所以谱聚类方法相对简单，对复杂分布的数据也十分有效。但是作为一种新发展的聚类算法，谱聚类算法本身仍存在许多值得深入研究的问题，在如何构造相似矩阵W、如何处理特征向量、如何自动确定聚类数目、如何选取Laplacian矩阵、如何运用到大规模学习问题中几个方面尤为明显。在如今普遍的海量信息面前，谱聚类适用于大规模学习的问题亟待解决。随着当代科学与工程、制造业的需求驱动，高性能计算近些年来得到迅猛发展。相对于CPU的发展放缓，图形处理单元(GPU，Graph Processing Unit)在高性能计算方面的卓越表现受到越来越多人的瞩目。GPU优秀的计算性能以及高速的访存带宽为谱聚类在应用到大规模数据时，提高计算效率和节省内存空间提供了良好的平台支持。　　为了解决利用谱聚类进行大规模数据处理时计算和空间复杂度较大的问题，本文在CPU/GPU异构编程模型上实现了一个基于t近邻相似矩阵的谱聚类方法(HSC)。同时针对数据规模过大时设备内存受限导致HSC不能正常工作的问题，本文提出了将数据分块后形成流水机制并在CPU/GPU异构编程模型上进行实现(HBSC)。在配有GTX480的单个计算节点和配有4个计算节点的MPI集群环境下，使用rcv1、covtypes、kddb和url等不同规模的数据集进行了实验。实验结果表明，HSC和HBSC均达到了较好的聚类质量，并且取得了较高的计算性能。对于较小规模的数据集rcv1，HSC是4个CPU计算节点(4核4线程)组成的集群计算环境下(MPI4*4)并行谱聚类算法(PSC)性能的4倍左右，而对于较大规模的数据集url，HBSC的计算性能则能达到PSC在MPI4*4工作模式下的7倍。

其他文献

基于因子分析的分布估计算法

分布估计算法与传统遗传算法一样，提供了一种求解复杂系统优化问题的通用框架，它不依赖于问题的具体领域，具有很强的自组织，自适应和自学习等特征，所以在组合优化，机器学习，生产调度

学位

分布估计算法进化算法因子分析收敛速度

Web日志用户群体分析系统

随着互联网的快速发展，搜索引擎、门户网站等网络产品后台产生了大量的Web日志。然而，原始的Web日志都是些一维的记录式数据，其格式大致上都是“[某人][某时][用搜索引擎查询了

学位

互联网挖掘理论互联网日志分析用户群体特征热门查询关键词网络访问门户网站网络管理

现代软件工程理论RUP及其在翻译辅助系统中的应用

八十年代术以来，面向对象技术逐渐成为研究的热点，一度出现了几十种支持软件开发的面向对象方法。其中，Booch，Coad/Yourdon，OMT，和Jacobson的方法在面向对象软件开发界得到了广泛的

学位

业务建模需求分析面向对象测试驱动统一建模语言翻译辅助系统

J2A音频压缩技术的研究与应用实践

随着计算机技术、现代通信技术、网络和信息处理技术的发展，多媒体技术在社会生活中的应用越来越广泛。目前，多媒体技术所涉及的数据源包括：文字、声音、图形、图像、动画等等。

学位

JPEG2000小波变换音频压缩/解压缩J2A音频播放器

基于Web Services的企业级服务总线结构设计技术研究

近些年我国企业信息化进程加快，业务部门实施了大量各自领域的信息系统。随之问题产生了，由于所用技术、实施团队以及时间的不同等原因，系统间很难进行通讯，所以形成了许许多多的

学位

企业级服务总线结构设计遗留系统系统集成

基于内容的鱼病图像检索算法研究与实现

本文以鱼病图像为对象,研究了利用基于内容的图像检索技术进行图像检索的基础理论和一般方法,结合计算机图像处理技术、模式识别、机器视觉技术,建立了利用基于内容的图像检

学位

基于内容检索纹理特征形状特征颜色特征

主动网络拥塞控制及节点资源访问控制研究

为了解决传统网络不够灵活的局限性，研究界提出了在传统网络通信模型中增加计算结构使得网络具有可编程的思路。主动网络正是在该思路的指导下建立的，在主动网络中网络节点不但

学位

主动网络主动节点拥塞控制节点资源

数字化心电信号语音耦合传输的研究

便携式心电信号采集器是一种用于心电信号采集的小型仪器。心脏病患者可以使用它随时随地采集自己的心电信号，通过电话网传输到医疗中心，实现远程医疗，这给远离医院或行动不便的

学位

心电信号采集器远程传输语音耦合传输滤波处理

虚拟汉语播音员口型动画及其场景整合的研究

随着计算机技术的发展和日趋完善，人们对人机交互的要求逐步提高，越来越希望能以自然的方式来与计算机沟通。因此，在新一代信息系统中，引入虚拟秘书，虚拟播音员或虚拟主持人等虚拟

学位

虚拟汉语播音员汉语发音口型口型动画基本口型集场景整合人体建模

移动代理在网络管理系统中性能的研究与分析

最近几年，人们越来越意识到网络管理的重要性。目前，由于SNMP(SimpleNetworkManagementProtocol)协议简单易用，大多网络管理系统采用基于SNMP的集中式管理体系结构。但是，随着网

学位

网络管理移动代理SNMPNS分布式智能控制

CPU/GPU混合编程模型上的并行谱聚类实现

其他学术论文