[cuda]常量内存 - 手上有剑，心中有爱 - ITeye博客

`

暴风雪

浏览: 395683 次
性别:
来自: 杭州

最近访客更多访客>>

deyizhiyun

wangqibao198374

空城旧梦why

dstf

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

wsyzyrxp：非常感谢兄弟帮了我大忙
[opengl]弹簧质点法模拟柔性布料以及椭球碰撞的opengl实现
mingdry0304：
[opengl]彩色立方体旋转
tyfengyu：我刚刚更改的代码加上了标准差stdVal,故recoMat应该 ...
[python]用python实现的pca算法
tyfengyu： python的pca代码有2处错误：1.finalData = ...
[python]用python实现的pca算法
暴风雪： McFlurry 写道前排(凑字数)！擦你怎么摸来这里的
诈尸总结

[cuda]常量内存

博客分类：

cuda

阅读更多

我们在cuda编程中定义变量的时候，可以用__constant__来修饰定义，代表着定义了一个常量内存。向常量内存中拷贝数据的时候不再使用cudaMemcpy，而改为使用cudaMemcpyToSymbol。对于常量内存，不需要在使用完成后用cudafree释放空间。

常量内存带来的性能提升

__constant__把对变量的访问限制为只读，跟从全局内存读取数据相比，从常量内存读取相同的数据可以节约内存带宽，原因是对常量内存的单次读操作可以广播到同一个线程块内的其他线程(节约15次读操作)。且常量内存的数据将被缓存起来，对相同地址的连续读操作将不会产生额外的内存通信量。

为了方便理解，写了一个用常量内存给数组赋值的程序。

#include<cuda_runtime.h>
#include<windows.h>
#include<iostream>
using namespace std;
const int nMax = 50;

__constant__ float num1[40];
__global__ void exchangeKernel(float *aaa)
{
	int offset = threadIdx.x + blockDim.x * blockIdx.x;
	aaa[offset] = num1[offset];
}

int main(){
	float *devA,tmp[40],res[40];
	cudaMalloc((void**)&devA, 40*sizeof(float));
	for (int i = 0; i < 40; i++)tmp[i] = i*1.5f;
	cudaMemcpyToSymbol(num1, tmp, 40 * sizeof(float));
	exchangeKernel << <4, 10 >> >(devA);
	cudaMemcpy(res, devA, 40 * sizeof(float), cudaMemcpyDeviceToHost);
	for (int i = 0; i < 40; i++){
		cout << res[i] << " " << endl;
	}
	cin >> res[1];
	return 0;
}

1
顶

1
踩

分享到：

开始的QT编程 | [CUDA]共享内存

2015-12-14 20:01
浏览 1619
评论(0)
分类:编程语言
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

使用常量内存来处理光线跟踪: 在CUDA编程模型中，程序员需要使用cudaMemcpyToSymbol函数将数据从主机内存复制到常量内存，而在计算结束后，如果不再需要这些数据，也应当清理常量内存，防止内存泄漏。光线跟踪的另一个关键步骤是光线与场景的...

CUDA——了解和使用共享内存: 3. **常量内存（Constant Memory）**：也是位于SM内部，特点是只读且访问速度快于全局内存。 4. **寄存器（Registers）**：位于SM内部，用于存储线程级的变量，访问速度最快。 #### 二、充分利用本地多处理器内存...

CUDA by example （中文：GPU高性能编程CUDA实战）代码实例: 主要包括CUDA C/C++、CUDA内核函数、全局内存、共享内存、常量内存、纹理内存等概念。程序员需要了解如何定义和管理这些内存类型，以及如何在CPU和GPU之间传输数据。 2. **CUDA内核**：内核是CUDA程序中执行并行...

CUDA_CUDA简介_: 3. **Memory Hierarchy**：CUDA提供多种内存类型，包括全局内存、共享内存、常量内存和纹理内存。合理使用这些内存可以显著提高性能，因为全局内存访问速度较慢，而共享内存和常量内存访问速度更快。 4. **...

CUDA-Libraries_cuda_libraries_: 它由CUDA核心、全局内存、共享内存、纹理内存和常量内存等组件构成。 2. **CUDA库的核心库**： - **cuBLAS**：CUDA Basic Linear Algebra Subroutines，提供了高性能的线性代数运算，如矩阵乘法、求逆、特征值等。...

CUDA C编程权威指南.pdf: - 常量内存的概念及其在CUDA中的作用。 - 如何使用常量内存提高性能。 - **5.6 线程束洗牌指令** - 线程束洗牌指令的定义及其使用场景。 - 如何利用线程束洗牌指令优化并行归约。 - **5.7 总结** - 对本章...

CUDA.rar_condensation_cuda_cuda 入门_cuda入门_深入浅出谈CUDA: CUDA的内存层次结构包括全局内存、共享内存、常量内存和纹理内存，理解和有效利用这些内存类型对提升程序性能至关重要。 "malloc函数.htm"可能详细介绍了在CUDA中如何使用`malloc`函数进行动态内存分配。在CUDA编程...

cuda 并行计算试题: 3. 内存管理：CUDA中的内存分为多种类型，包括全局内存、共享内存、常量内存和纹理内存等。它们各自有不同的性能特点和使用场景。试题可能会涉及对不同内存类型的访问速度、生命周期以及如何优化内存访问来提高程序...

CUDA中文手册.pdf+技术文档+不带标签: CUDA的内存模型区分了不同的内存区域，例如全局内存、共享内存、常量内存和纹理内存。每种内存类型都有其特定的用途和性能特点，例如共享内存是一种低延迟的高速缓存，可以让线程块内的线程更高效地共享数据。 CUDA...

cuda开发的DLL下载: 在编程实践中，CUDA程序员需要掌握如何使用CUDA的Kernel函数在GPU上执行计算，理解CUDA的内存层次结构，包括全局内存、共享内存、寄存器和常量内存，以及如何有效利用这些内存以提高计算效率。同时，理解流和事件的...

cuda 编程指南 3.0: 3. **内存层次**：CUDA有多种内存类型，包括全局内存（Global Memory）、共享内存（Shared Memory）、常量内存（Constant Memory）、纹理内存（Texture Memory）和寄存器（Registers）。理解和优化内存访问是CUDA...

CUDA典型例子: 2. **CUDA内存模型**：CUDA有多种内存类型，如全局内存、共享内存、寄存器内存和常量内存等。了解它们的特性和使用场景能优化内存访问性能，例如全局内存访问速度较慢，而共享内存和寄存器内存则更快。 3. **CUDA...

CUDA_C_Programming_Guide、CUDA并行程序设计 GPU编程指南: CUDA内存系统包括全局内存、共享内存、常量内存、纹理内存和寄存器。全局内存是所有线程都能访问的，但访问速度相对较慢；共享内存由线程块内的线程共享，访问速度快但有限制；常量内存用于存储不会改变的数据，具有...

cuda安装与使用 cuda博客 cuda入门资料: 3. **CUDA内存管理**：理解不同类型的内存（全局、共享、常量、纹理、寄存器）至关重要，因为它们在性能上有很大差异。全局内存是所有线程可访问的，但速度较慢；共享内存则快得多，但只能在同一个线程块内共享。 4...

maopao1.rar_cuda sort_cuda 排序_冒泡排序cuda_基于CUDA的加速: 1. **设备内存管理**：CUDA程序需要在GPU上分配和管理内存，包括全局内存、共享内存、常量内存和纹理内存等。在CUDA冒泡排序中，数据通常存储在全局内存中，线程块内的数据可能利用共享内存进行局部优化。 2. **...

Introduction_to_CUDA.zip_CUDA INTRO_cuda: 1. **CUDA架构**：CUDA架构由GPU、CUDA核心、全局内存、共享内存、纹理内存和常量内存等组成。GPU中的CUDA核心执行计算任务，而不同类型的内存则服务于不同的数据访问需求。 2. **CUDA编程模型**：CUDA编程模型基于...

CUDA参考手册 CUDA: 同时，了解如何有效地利用显存层次结构（全局内存、共享内存、寄存器和常量内存）对于提高性能至关重要。总的来说，CUDA参考手册是开发CUDA程序的必备工具，它涵盖了从基本操作到高级特性的全面指导，帮助程序员...

CUDA Getting Started 2.1: - **下一步行动建议**：深入学习CUDA编程技巧、探索高级特性（如纹理内存、常量内存等），参与社区讨论，提高并行编程能力。 ### CUDA架构细节 CUDA支持的GPU拥有数百个核心，这些核心可以共同运行数千个计算线程...

CUDA_C_Programming_Guide.pdf: 1.3 内存层次结构: CUDA的内存层次结构包括全局内存、共享内存、常量内存和纹理内存等。共享内存是块内线程间可以共享的快速内存，而全局内存则是块间和线程间共享的内存，访问速度较慢。 1.4 异构编程: CUDA支持...

Global site tag (gtag.js) - Google Analytics