论文部分内容阅读
GPU作为简单多核处理器的典型代表,其强大的浮点运算能力使得其具有进行大规模科学运算的能力,统一架构GPU[1]和相关的并行编程模型的出现在保持其强大运算能力的同时增加了可编程性.如何减少程序实际性能与GPU理想性能之间的差异也成为了利用GPU进行高性能计算时必须面对的问题.本文分析了提高计算访存比和降低访存平均延迟对CUDA程序性能的影响,并以GPU上矩阵乘法[3]为例量化地分析了二者所带来的性能提升比例,总结了在CPU-GPU之间进行同步执行时最佳任务划分比例因子的求解公式,同样以矩阵乘法为该公式的正确性进行了验证.