CUDA-从GPU结构理解线程 -

孤狼18

浏览: 82563 次
性别:

最近访客更多访客>>

longhun_12

MageFrank

爱旋律的火

Nevedia

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

CUDA-从GPU结构理解线程

博客分类：

CUDA

cuda

原文地址：

http://blog.csdn.net/sunmc1204953974/article/details/51074102

在使用GPU线程时不是线程越多就越好，其实从硬件角度分析，支持CUDA的NVIDIA 显卡，都是由多个multiprocessors 组成。每个 multiprocessor 里包含了8个stream processors，其组成是四个四个一组，也就是两组4D的处理器。

每个 multiprocessor 还具有很多个（比如8192个）寄存器，一定的（比如16KB） share memory，以及 texture cache 和 constant cache

这里写图片描述

在 CUDA 中，大部份基本的运算动作，都可以由 stream processor 进行。每个 stream processor 都包含一个 FMA（fused-multiply-add）单元，可以进行一个乘法和一个加法。比较复杂的运算则会需要比较长的时间。

在执行 CUDA 程序的时候，每个 stream processor 就是对应一个 thread。每个 multiprocessor 则对应一个 block。但是我们一个block往往有很大量的线程，之前我们用到了256个和1024个，远超一个 multiprocessor 所有的8个 stream processor 。

实际上，虽然一个 multiprocessor 只有八个 stream processor，但是由于 stream processor 进行各种运算都有 latency，更不用提内存存取的 latency，因此 CUDA 在执行程序的时候，是以warp 为单位。

比如一个 warp 里面有 32 个 threads，分成两组 16 threads 的 half-warp。由于 stream processor 的运算至少有 4 cycles 的 latency，因此对一个 4D 的stream processors 来说，一次至少执行 16 个 threads（即 half-warp）才能有效隐藏各种运算的 latency。也因此，线程数达到隐藏各种latency的程度后，之后数量的提升就没有太大的作用了。

还有一个重要的原因是，由于 multiprocessor 中并没有太多别的内存，因此每个 thread 的状态都是直接保存在multiprocessor 的寄存器中。所以，如果一个 multiprocessor 同时有愈多的 thread 要执行，就会需要愈多的寄存器空间。例如，假设一个 block 里面有 256 个 threads，每个 thread 用到20 个寄存器，那么总共就需要 256x20 = 5,120 个寄存器才能保存每个 thread 的状态。

而一般每个 multiprocessor 只有 8,192 个寄存器，因此，如果每个 thread 使用到16 个寄存器，那就表示一个 multiprocessor 的寄存器同时最多只能维持 512 个 thread 的执行。如果同时进行的 thread 数目超过这个数字，那么就会需要把一部份的数据储存在显卡内存中，就会降低执行的效率了。

分享到：

MPI实现矩阵相乘 | CUDA--Unified Memory

2016-09-18 10:41
浏览 3129
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

CUDA-从GPU结构理解线程

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

CUDA-从GPU结构理解线程

评论

发表评论

相关推荐

CUDA warp divergence与bank conflict

CUDA-设备属性

CUDA-寄存器使用

CUDA--Unified Memory

CUDA-流

CUDA-CUBLAS库使用

CUDA-aware MPI

CUDA—两个数组相加

最近访客更多访客>>