AI Infra 硬件体系与编程模型：11. CUDA编程基础：GPU内存管理

basketball616

553人浏览 · 2026-06-10 18:08:37

basketball616 · 2026-06-10 18:08:37 发布

CUDA内存模型与管理完全指南：从硬件架构到API实战

在上一篇文章中，我们深入讲解了CUDA核函数的本质和线程组织方式。今天，我们将进入CUDA性能优化的核心领域——内存系统。对于绝大多数CUDA程序来说，内存访问效率才是真正的性能瓶颈，而不是计算能力。

一个不懂得合理利用内存层次的CUDA程序，即使有再多的线程并行，性能也可能不如优化良好的CPU程序。本文将从GPU硬件架构出发，全面讲解CUDA的内存模型，然后逐一介绍所有重要的内存管理API，并分享经过工业界验证的最佳实践。

一、为什么GPU内存模型如此重要？

在开始讲解之前，我们先看一组令人震惊的数据：

一个A100 GPU的单精度计算能力高达19.5 TFLOPS
但它的全局内存带宽只有1.5 TB/s

如果我们做一个简单的计算：每次浮点运算需要读取4字节数据，那么19.5 TFLOPS的计算能力需要78 TB/s的内存带宽才能喂饱。而实际带宽只有1.5 TB/s，这意味着98%的时间GPU都在等待内存数据！

这就是所谓的内存墙（Memory Wall）问题，在GPU上比在CPU上严重得多。理解并合理利用GPU的内存层次结构，是突破内存墙、释放GPU性能的唯一途径。

二、GPU内存模型基础：五级层次结构

GPU的内存系统是一个分层的金字塔结构，越往上速度越快、容量越小、成本越高；越往下速度越慢、容量越大、成本越低。

在这里插入图片描述

2.1 寄存器（Registers）

寄存器是GPU上最快的内存，位于流式多处理器（SM）内部，访问延迟只有几个时钟周期。

核心特性

所有权：每个线程私有，其他线程无法访问
容量：每个SM有几十KB到几百KB的寄存器堆（A100每个SM有256KB寄存器）
生命周期：与线程相同，线程结束时自动释放
访问速度：~1ns，零延迟访问

工作原理

编译器会自动将核函数中的局部变量分配到寄存器中。当寄存器不够用时，变量会被"溢出"到本地内存中，这会导致性能急剧下降。

最佳实践

尽量减少每个线程使用的变量数量
避免使用递归和大的局部数组
使用-maxrregcount编译选项限制每个线程的寄存器使用量

2.2 共享内存（Shared Memory）

共享内存是GPU上第二快的内存，同样位于SM内部，是线程块内线程通信的主要方式。

核心特性

所有权：每个线程块私有，块内所有线程共享
容量：每个SM有几十KB到几百KB的共享内存（A100每个SM有192KB共享内存）
生命周期：与线程块相同，块执行结束时自动释放
访问速度：~1-5ns，与寄存器相当

重要特性：Bank冲突

共享内存被划分为32个等大小的内存块（Bank），每个Bank可以同时独立访问。如果多个线程同时访问同一个Bank的不同地址，就会发生Bank冲突，导致访问串行化，性能下降。

我们将在后续文章中详细讲解Bank冲突的产生原因和解决方法。

2.3 本地内存（Local Memory）

本地内存不是一个独立的物理内存，而是全局内存的一部分。当寄存器不够用时，编译器会将局部变量"溢出"到本地内存中。

核心特性

所有权：每个线程私有
容量：理论上没有限制（受限于全局内存大小）
生命周期：与线程相同
访问速度：与全局内存相同，~100-200ns

注意事项

本地内存访问是性能杀手，因为它的速度比寄存器慢100倍以上。在编写核函数时，一定要尽量避免寄存器溢出。

2.4 全局内存（Global Memory）

全局内存是GPU上容量最大、速度最慢的内存，是CPU和GPU之间数据传输的主要通道。

核心特性

所有权：整个GPU共享，所有线程都可以访问
容量：从几GB到几十GB不等（A100有80GB HBM2e）
生命周期：显式管理，直到调用cudaFree释放
访问速度：~100-200ns，带宽几百GB到几TB/s

重要特性：合并访问

全局内存的访问性能严重依赖于访问模式。当一个warp中的32个线程访问连续的内存地址时，GPU会将这些访问合并为一个或几个内存事务，这就是合并访问（Coalesced Access）。

非合并的全局内存访问会导致内存带宽利用率急剧下降，这是CUDA程序最常见的性能瓶颈。

2.5 常量内存（Constant Memory）

常量内存是全局内存的一个特殊区域，专门用于存储只读数据。它有自己专用的缓存，对于广播式访问（所有线程访问同一个地址）有非常好的性能。

核心特性

所有权：整个GPU共享
容量：最多64KB
生命周期：显式管理
访问速度：缓存命中时~1-5ns，缓存未命中时与全局内存相同

最佳实践

只用于存储所有线程都需要访问的只读常量
特别适合存储核函数的参数、查找表等
避免不同线程访问不同地址的常量内存，这会导致缓存冲突

2.6 纹理内存（Texture Memory）

纹理内存也是全局内存的一个特殊区域，专门为2D空间局部性优化。它有自己专用的纹理缓存，对于图像处理等2D数据访问有很好的性能。

核心特性

所有权：整个GPU共享
容量：理论上没有限制
生命周期：显式管理
访问速度：缓存命中时~1-5ns，缓存未命中时与全局内存相同

最佳实践

适合处理图像、视频等2D数据
支持硬件插值、边界处理等特殊功能
对于有2D空间局部性的访问模式性能优于全局内存

2.7 各内存层次性能对比

为了让大家有一个直观的感受，我整理了一个性能对比表：

内存类型	位置	所有者	容量	访问延迟	带宽	主要用途
寄存器	SM内部	线程	~256B/线程	~1ns	极高	局部变量
共享内存	SM内部	线程块	~192KB/SM	~1-5ns	极高	线程块内通信、数据复用
L1缓存	SM内部	SM	~128KB/SM	~10ns	高	缓存全局内存访问
L2缓存	GPU芯片	GPU	~40MB	~20ns	中高	全局内存共享缓存
全局内存	GPU板载	GPU	几十GB	~100-200ns	1-2TB/s	主存、CPU-GPU数据传输
常量内存	全局内存	GPU	64KB	缓存命中~1ns	高	只读常量、参数
本地内存	全局内存	线程	无限制	~100-200ns	低	寄存器溢出

三、CUDA内存管理API详解

现在我们来逐一讲解CUDA中最重要的内存管理API，从最基础的显式内存管理到现代的统一内存和显存池。

3.1 基础显式内存管理

显式内存管理是CUDA最基础也是最常用的内存管理方式，开发者需要手动分配、释放和传输内存。

3.1.1 cudaMalloc：分配全局内存

cudaError_t cudaMalloc(void** devPtr, size_t size);

功能：在GPU全局内存中分配size字节的内存
参数：
- devPtr：输出参数，指向分配的设备内存指针
- size：要分配的内存大小，单位字节
返回值：CUDA错误码

代码示例：

float* d_data;
cudaError_t err = cudaMalloc(&d_data, 1024 * sizeof(float));
if (err != cudaSuccess) {
    printf("cudaMalloc failed: %s\n", cudaGetErrorString(err));
    exit(1);
}

重要说明：

cudaMalloc分配的内存是未初始化的，包含随机数据
分配的内存地址是256字节对齐的
分配失败最常见的原因是显存不足
不要在循环中频繁调用cudaMalloc和cudaFree，这会非常慢

3.1.2 cudaFree：释放全局内存

cudaError_t cudaFree(void* devPtr);

功能：释放之前通过cudaMalloc分配的设备内存
参数：
- devPtr：指向要释放的设备内存指针
返回值：CUDA错误码

代码示例：

cudaError_t err = cudaFree(d_data);
if (err != cudaSuccess) {
    printf("cudaFree failed: %s\n", cudaGetErrorString(err));
    exit(1);
}

重要说明：

释放空指针是安全的，什么也不会做
重复释放同一个指针会导致未定义行为
忘记释放内存会导致显存泄漏，最终导致程序崩溃

3.1.3 cudaMemcpy：内存拷贝

cudaError_t cudaMemcpy(void* dst, const void* src, size_t count, cudaMemcpyKind kind);

功能：在主机和设备之间拷贝内存
参数：
- dst：目标内存地址
- src：源内存地址
- count：要拷贝的字节数
- kind：拷贝方向，有以下四种取值：
  - cudaMemcpyHostToHost：主机到主机
  - cudaMemcpyHostToDevice：主机到设备
  - cudaMemcpyDeviceToHost：设备到主机
  - cudaMemcpyDeviceToDevice：设备到设备
返回值：CUDA错误码

代码示例：

// 主机到设备
float h_data[1024] = {0};
cudaMemcpy(d_data, h_data, 1024 * sizeof(float), cudaMemcpyHostToDevice);

// 设备到主机
cudaMemcpy(h_data, d_data, 1024 * sizeof(float), cudaMemcpyDeviceToHost);

重要说明：

cudaMemcpy是同步的，会阻塞主机线程直到拷贝完成
拷贝方向必须正确，否则会导致程序崩溃
不能在主机和设备指针之间直接赋值，必须使用cudaMemcpy

3.1.4 cudaMemset：内存初始化

cudaError_t cudaMemset(void* devPtr, int value, size_t count);

功能：将设备内存的前count字节设置为指定的值
参数：
- devPtr：指向要初始化的设备内存指针
- value：要设置的值（注意：是字节值）
- count：要设置的字节数
返回值：CUDA错误码

代码示例：

// 将设备内存初始化为0
cudaMemset(d_data, 0, 1024 * sizeof(float));

重要说明：

value参数是字节值，不是整数值。所以cudaMemset(d_data, 1, 1024 * sizeof(int))会将每个int设置为0x01010101，而不是1。
如果需要将内存初始化为非零值，最好先在主机上初始化，然后拷贝到设备。

3.2 统一内存（Unified Memory）

统一内存是CUDA 6.0引入的革命性特性，它消除了主机和设备内存之间的界限，让CPU和GPU可以共享同一个虚拟地址空间。
在这里插入图片描述

3.2.1 什么是统一内存？

统一内存提供了一个单一的内存地址空间，CPU和GPU都可以通过同一个指针访问这个地址空间。CUDA驱动会自动在后台处理数据的迁移和同步。
在 CUDA 统一内存（Unified Memory，UM）中，数据并没有一个固定不变的存储位置，而是根据使用情况在 CPU（主机）和 GPU（设备）之间自动迁移。
在这里插入图片描述

3.2.2 cudaMallocManaged：分配统一内存

cudaError_t cudaMallocManaged(void** devPtr, size_t size, unsigned int flags = cudaMemAttachGlobal);

功能：分配统一内存
参数：
- devPtr：输出参数，指向分配的统一内存指针
- size：要分配的内存大小，单位字节
- flags：分配标志，常用的有：
  - cudaMemAttachGlobal：所有设备都可以访问（默认）
  - cudaMemAttachHost：只有主机可以访问
返回值：CUDA错误码

代码示例：

float* data;
cudaMallocManaged(&data, 1024 * sizeof(float));

// 主机可以直接访问
for (int i = 0; i < 1024; i++) {
    data[i] = static_cast<float>(i);
}

// GPU也可以直接访问同一个指针
vectorAdd<<<grid, block>>>(data, data, data, 1024);
cudaDeviceSynchronize();

// 主机可以直接访问结果
printf("data[0] = %f\n", data[0]);

cudaFree(data); // 统一内存使用cudaFree释放

3.2.3 统一内存的工作原理

在这里插入图片描述

初始状态：首次访问决定位置
- 当你通过 cudaMallocManaged 分配统一内存时，数据一开始并没有物理存放（或者存放位置未定义）。
- 如果 CPU 先访问（读或写）：驱动会将数据页迁移到 CPU 的物理内存（DRAM）。
- 如果 GPU 先访问：驱动会将数据页迁移到 GPU 的显存（VRAM）。
运行过程中：按需迁移（Page Migration）
- CUDA 的统一内存管理器采用按需分页机制，会自动在 CPU 和 GPU 内存之间迁移数据。
- 当 GPU 访问一个当前在 CPU 内存中的页面时，会触发缺页错误，驱动自动将该页面迁移到 GPU 显存。
- 当 CPU 访问一个当前在 GPU 显存中的页面时，同样会触发迁移，将其移回 CPU 内存（或通过 PCIe 直接访问，取决于架构和设置）。

结果是：数据倾向于停留在最近访问过它的处理器的内存中。

统一内存的底层实现基于页错误（Page Fault）机制：

当CPU或GPU访问一个不在当前地址空间的统一内存页时，会触发页错误
CUDA驱动会暂停访问者，然后将数据页从另一个处理器迁移到当前处理器
数据迁移完成后，恢复访问者的执行

3.2.4 优缺点分析

优点：

大大简化了内存管理代码，不需要手动分配和拷贝
减少了代码重复和错误
对于不规则的内存访问模式性能更好

缺点：

数据迁移是自动的，开发者无法精确控制
可能会导致不必要的数据迁移，影响性能
在多GPU系统上有一些限制

3.2.5 使用场景

快速原型开发
复杂的数据结构（如链表、树）
不规则的内存访问模式
主机和GPU频繁交互的场景

3.3 流序内存池（Memory Pools）

流序内存池是CUDA 11.2引入的新特性，它提供了异步、流关联的内存分配和释放功能，能够显著提高内存管理的效率。

3.3.1 什么是流序内存池？

流序内存池是一个预先分配的大内存块，开发者可以从池中快速分配和释放小内存块。它避免了频繁调用cudaMalloc和cudaFree带来的开销，特别适合AI框架等需要频繁分配和释放内存的场景。

在这里插入图片描述

理解流序内存池如何工作，需要先分析几个关键机制：

流序 (Stream-Ordered) 语义：这是最核心的区别。
- 传统方式：cudaMalloc 就像是一个全局的路障。当程序执行到这里，GPU必须暂停所有流上的工作，等待内存分配完成后才能继续。这可能导致计算单元闲置。
- 流序方式：cudaMallocAsync 则像一个高效的指令。它不是直接去“挖”内存，而是向指定的CUDA流中放入一条“分配内存”的任务。CPU立刻就能返回，去处理其他事情。GPU在流中执行到这条任务时，才会进行真正的分配或从池中获取内存。这保证了内存的可用性，并且与流的进度完美同步，避免了全局停顿。
内存池与低开销复用：流序分配器的底层是一个由驱动管理的内存池。
- 当你调用cudaMallocAsync时，分配器会优先从池中找一块已经释放的、大小合适的内存来复用。只有当池中内存不足时，才会向操作系统申请新的内存。
- 同样，cudaFreeAsync也不会立即把内存归还给操作系统，而是将其返回到池中，等待后续的cudaMallocAsync请求。这种机制极大地减少了与昂贵操作系统驱动的交互，并有效避免了内存碎片，在高频分配场景下能带来数倍的性能提升。
安全的内存使用与同步：由于分配和释放是异步的，如何确保一个内存地址可以被安全使用？
- 依赖保证：其保证是，只要你在同一个流中，遵循“先分配，再使用，最后释放”的顺序，就是安全的。因为流中的任务本来就会按顺序执行。
- 跨流访问：如果一个流（streamB）想要访问另一个流（streamA）分配的内存，就需要使用CUDA事件来建立依赖关系，确保streamB的访问发生在streamA的分配操作完成之后。

在这里插入图片描述

下面的代码对比清晰地展示了两种方式的差异，以及流序方式如何简化逻辑并提升效率：

// ========== 方式一：显式内存分配 (cudaMalloc/Free) ==========
void libraryFunc(cudaStream_t stream) {
    // 问题：此处的 cudaMalloc 会触发隐式的设备同步
    cudaMalloc(&ptrA, sizeA);  // 这将强制GPU等待，可能导致所有流空闲
    kernelA<<<..., stream>>>(ptrA);
    // 问题：此处的 cudaFree 同样会触发隐式同步
    cudaFree(ptrA);
}

// ========== 方式二：流序内存池 (cudaMallocAsync/FreeAsync) ==========
void efficientLibraryFunc(cudaStream_t stream) {
    // 异步分配，不会阻塞CPU，也不会触发GPU全局同步
    cudaMallocAsync(&ptrA, sizeA, stream); // 这是一条“流指令”
    kernelA<<<..., stream>>>(ptrA);
    // 异步释放，内存直接返回池中，供后续使用
    cudaFreeAsync(ptrA, stream); // 同样不会阻塞，且内存可被立即重用
}

代码解读：在显式分配中，库函数内部的cudaMalloc/cudaFree会成为性能瓶颈，拖慢整个应用。而在流序分配中，分配和释放与流中的内核执行融为一体，逻辑清晰，性能更好，也更易于封装。

3.3.2 分配与释放 cudaMallocAsync / cudaFreeAsync

cudaError_t cudaMallocAsync(void** devPtr, size_t size, cudaStream_t stream = 0);
cudaError_t cudaFreeAsync(void* devPtr, cudaStream_t stream = 0);

功能：cudaMallocAsync：在指定的CUDA流中插入一个内存分配操作。当GPU执行到该流中的这一点时，分配才会实际发生，并且分配的内存只保证在此之后的任务中可用
cudaFreeAsync：在指定的CUDA流中插入一个内存释放操作。当GPU执行到该流中的这一点后，该内存块才被视为空闲，并可以被重用
参数：
- devPtr：指向分配的设备内存指针
- size：要分配的内存大小
- stream：关联的CUDA流
返回值：CUDA错误码

代码示例：

cudaStream_t stream;
cudaStreamCreate(&stream);

float* d_data;
// 从默认显存池异步分配内存
cudaMallocAsync(&d_data, 1024 * sizeof(float), stream);

// 在同一个流上使用内存
vectorAdd<<<grid, block, 0, stream>>>(d_data, d_data, d_data, 1024);

// 异步释放内存
cudaFreeAsync(d_data, stream);

cudaStreamDestroy(stream);

3.3.4 管理内存池 cudaDeviceGetDefaultMemPool

内存池是流序分配器的“仓库”，cudaMallocAsync 从中取用内存，cudaFreeAsync 将内存归还给池。

获取默认内存池 (cudaDeviceGetDefaultMemPool)：每个设备都有一个默认池。你可以用它快速开始，无需手动创建。
```
__host__ cudaError_t cudaDeviceGetDefaultMemPool(cudaMemPool_t* memPool, int device);
```
使用方法如下：
```
cudaMemPool_t memPool;
cudaDeviceGetDefaultMemPool(&memPool, 0);
```

创建显式内存池 (cudaMemPoolCreate)：当你需要更精细的控制或特殊功能（如进程间共享）时使用。

__host__ cudaError_t cudaMemPoolCreate(cudaMemPool_t* memPool, const cudaMemPoolProps* poolProps);

创建时需要指定 cudaMemPoolProps，例如创建一个支持IPC的池：

cudaMemPool_t memPool;
cudaMemPoolProps poolProps = { };
poolProps.allocType = cudaMemAllocationTypePinned;
poolProps.location.type = cudaMemLocationTypeDevice;
poolProps.location.id = 0; // 指定在设备0上
poolProps.handleType = cudaMemHandleTypePosixFileDescriptor; // 支持IPC共享
cudaMemPoolCreate(&memPool, &poolProps);

设置当前内存池 (cudaDeviceSetMemPool)：你可以为某个设备设置一个“当前”的内存池，之后在该设备的所有流上调用 cudaMallocAsync 时，如果不额外指定，都会从这个当前池中分配。
```
__host__ cudaError_t cudaDeviceSetMemPool(int device, cudaMemPool_t memPool);
```
显式指定内存池 (cudaMallocFromPoolAsync)：相比设置当前池，这个API提供了更直接的指定方式，让你可以精确控制每次分配所使用的内存池。
```
__host__ cudaError_t cudaMallocFromPoolAsync(void** ptr, size_t size, cudaMemPool_t memPool, cudaStream_t stream);
```

3.3.5 控制池行为：属性设置与内存修剪

你可以通过下面这些API来精细管理内存池的行为和大小。

设置池属性 (cudaMemPoolSetAttribute)：用于控制缓存行为，是提升性能的关键。最重要的两个属性是：
- cudaMemPoolAttrReleaseThreshold：控制何时将空闲内存归还给操作系统。通过设置一个较大的阈值（如UINT64_MAX），可以避免频繁的内存归还和再分配，从而提升性能。
```
uint64_t threshold = UINT64_MAX;
cudaMemPoolSetAttribute(memPool, cudaMemPoolAttrReleaseThreshold, &threshold);
```
- cudaMemPoolReuseAllowInternalDependencies (默认开启)：允许分配器自动插入流间依赖关系，以便在不安全的情况下也能安全地重用内存。
修剪内存池 (cudaMemPoolTrimTo)：主动请求内存池将空闲内存归还给操作系统，将池中预留的内存减少到指定大小以下。
```
__host__ cudaError_t cudaMemPoolTrimTo(cudaMemPool_t memPool, size_t minBytesToKeep);
```

3.3.6 进阶与跨场景使用

当你的应用变得复杂，就需要下面这些API来处理跨流、跨进程等场景。

通过事件建立跨流依赖：当需要在不同流间共享内存时，必须用 cudaEvent 来建立依赖关系，确保使用的流在分配完成后才开始访问，并且在释放前已完成所有访问。

cudaMallocAsync(&ptr, size, stream1);
cudaEventRecord(event, stream1); // 记录stream1分配完成点
cudaStreamWaitEvent(stream2, event, 0); // stream2等待该事件
kernel<<<..., stream2>>>(ptr, ...); // 现在stream2可以安全使用ptr了
cudaFreeAsync(ptr, stream2);

在这里插入图片描述

跨进程共享 (IPC)：这套机制同样支持高效的跨进程内存共享。基本流程分为两步：
1. 共享内存池：导出方通过 cudaMemPoolExportToShareableHandle 导出一个支持IPC的池句柄，导入方通过 cudaMemPoolImportFromShareableHandle 导入该句柄，从而获得对同一个内存池的访问权。
2. 共享内存块：在共享的池中分配好内存后，导出方通过 cudaMemPoolExportPointer 导出特定内存块的描述信息，导入方通过 cudaMemPoolImportPointer 导入该描述信息，从而获得可访问的内存地址。

3.4 常量内存管理

// 声明常量内存
__constant__ float d_const[1024];

// 将数据拷贝到常量内存
cudaMemcpyToSymbol(d_const, h_const, 1024 * sizeof(float));

// 从常量内存拷贝数据到主机
cudaMemcpyFromSymbol(h_const, d_const, 1024 * sizeof(float));

重要说明：

常量内存必须在全局作用域声明
不能在核函数内部声明常量内存
常量内存的总大小不能超过64KB

3.5 共享内存管理

共享内存有两种分配方式：静态分配和动态分配。

静态共享内存

__global__ void kernel() {
    // 静态分配共享内存，大小在编译时确定
    __shared__ float s_data[256];
    
    // 使用共享内存
    s_data[threadIdx.x] = ...;
    __syncthreads();
}

动态共享内存

__global__ void kernel() {
    // 动态分配共享内存，大小在启动核函数时指定
    extern __shared__ float s_data[];
    
    // 使用共享内存
    s_data[threadIdx.x] = ...;
    __syncthreads();
}

// 启动核函数时指定动态共享内存大小（第三个参数）
kernel<<<grid, block, 256 * sizeof(float)>>>();

四、完整实战示例：向量加法

现在我们用一个完整的向量加法示例来展示不同内存管理方式的用法。

4.1 显式内存管理版本

#include <iostream>
#include <cuda_runtime.h>

#define CHECK_CUDA_ERROR(err) \
    if (err != cudaSuccess) { \
        std::cerr << "CUDA Error: " << cudaGetErrorString(err) << " at line " << __LINE__ << std::endl; \
        exit(1); \
    }

__global__ void vectorAdd(const float* a, const float* b, float* c, int n) {
    int i = blockIdx.x * blockDim.x + threadIdx.x;
    if (i < n) {
        c[i] = a[i] + b[i];
    }
}

int main() {
    const int n = 1 << 20; // 1M元素
    const size_t size = n * sizeof(float);

    // 分配主机内存
    float* h_a = new float[n];
    float* h_b = new float[n];
    float* h_c = new float[n];

    // 初始化主机数据
    for (int i = 0; i < n; i++) {
        h_a[i] = static_cast<float>(i);
        h_b[i] = static_cast<float>(i * 2);
    }

    // 分配设备内存
    float *d_a, *d_b, *d_c;
    CHECK_CUDA_ERROR(cudaMalloc(&d_a, size));
    CHECK_CUDA_ERROR(cudaMalloc(&d_b, size));
    CHECK_CUDA_ERROR(cudaMalloc(&d_c, size));

    // 数据从主机拷贝到设备
    CHECK_CUDA_ERROR(cudaMemcpy(d_a, h_a, size, cudaMemcpyHostToDevice));
    CHECK_CUDA_ERROR(cudaMemcpy(d_b, h_b, size, cudaMemcpyHostToDevice));

    // 启动核函数
    int blockSize = 256;
    int gridSize = (n + blockSize - 1) / blockSize;
    vectorAdd<<<gridSize, blockSize>>>(d_a, d_b, d_c, n);
    CHECK_CUDA_ERROR(cudaGetLastError()); // 检查核函数启动错误
    CHECK_CUDA_ERROR(cudaDeviceSynchronize()); // 等待核函数执行完成

    // 结果从设备拷贝到主机
    CHECK_CUDA_ERROR(cudaMemcpy(h_c, d_c, size, cudaMemcpyDeviceToHost));

    // 验证结果
    bool success = true;
    for (int i = 0; i < n; i++) {
        if (h_c[i] != h_a[i] + h_b[i]) {
            std::cerr << "Result verification failed at index " << i << std::endl;
            success = false;
            break;
        }
    }

    if (success) {
        std::cout << "Vector addition succeeded!" << std::endl;
    }

    // 释放内存
    CHECK_CUDA_ERROR(cudaFree(d_a));
    CHECK_CUDA_ERROR(cudaFree(d_b));
    CHECK_CUDA_ERROR(cudaFree(d_c));
    delete[] h_a;
    delete[] h_b;
    delete[] h_c;

    return 0;
}

4.2 统一内存版本

#include <iostream>
#include <cuda_runtime.h>

#define CHECK_CUDA_ERROR(err) \
    if (err != cudaSuccess) { \
        std::cerr << "CUDA Error: " << cudaGetErrorString(err) << " at line " << __LINE__ << std::endl; \
        exit(1); \
    }

__global__ void vectorAdd(const float* a, const float* b, float* c, int n) {
    int i = blockIdx.x * blockDim.x + threadIdx.x;
    if (i < n) {
        c[i] = a[i] + b[i];
    }
}

int main() {
    const int n = 1 << 20; // 1M元素
    const size_t size = n * sizeof(float);

    // 分配统一内存
    float *a, *b, *c;
    CHECK_CUDA_ERROR(cudaMallocManaged(&a, size));
    CHECK_CUDA_ERROR(cudaMallocManaged(&b, size));
    CHECK_CUDA_ERROR(cudaMallocManaged(&c, size));

    // 初始化数据（主机直接访问）
    for (int i = 0; i < n; i++) {
        a[i] = static_cast<float>(i);
        b[i] = static_cast<float>(i * 2);
    }

    // 启动核函数（GPU直接访问同一个指针）
    int blockSize = 256;
    int gridSize = (n + blockSize - 1) / blockSize;
    vectorAdd<<<gridSize, blockSize>>>(a, b, c, n);
    CHECK_CUDA_ERROR(cudaGetLastError());
    CHECK_CUDA_ERROR(cudaDeviceSynchronize());

    // 验证结果（主机直接访问）
    bool success = true;
    for (int i = 0; i < n; i++) {
        if (c[i] != a[i] + b[i]) {
            std::cerr << "Result verification failed at index " << i << std::endl;
            success = false;
            break;
        }
    }

    if (success) {
        std::cout << "Vector addition succeeded!" << std::endl;
    }

    // 释放统一内存
    CHECK_CUDA_ERROR(cudaFree(a));
    CHECK_CUDA_ERROR(cudaFree(b));
    CHECK_CUDA_ERROR(cudaFree(c));

    return 0;
}

可以看到，统一内存版本的代码简洁了很多，不需要手动进行数据拷贝。

4.3 CUDA流序内存池版本

#include <stdio.h>
#include <cuda_runtime.h>

// 错误检查宏
#define CUDA_CHECK(call) \
    do { \
        cudaError_t error = call; \
        if (error != cudaSuccess) { \
            printf("CUDA error at %s:%d - %s\n", __FILE__, __LINE__, \
                   cudaGetErrorString(error)); \
            exit(1); \
        } \
    } while(0)

// 向量加法内核函数
// 每个线程计算一个元素：C[i] = A[i] + B[i]
__global__ void vectorAdd(const float* A, const float* B, float* C, int N)
{
    int idx = blockIdx.x * blockDim.x + threadIdx.x;
    if (idx < N) {
        C[idx] = A[idx] + B[idx];
    }
}

int main()
{
    // ==================== 1. 设置问题规模 ====================
    int N = 1000000;  // 100 万个元素
    size_t bytes = N * sizeof(float);
    
    printf("Vector size: %d elements\n", N);
    printf("Memory required: %.2f MB\n", bytes / (1024.0 * 1024.0));
    
    // ==================== 2. 分配并初始化主机内存 ====================
    float *h_A = (float*)malloc(bytes);
    float *h_B = (float*)malloc(bytes);
    float *h_C = (float*)malloc(bytes);
    
    if (h_A == NULL || h_B == NULL || h_C == NULL) {
        printf("Host memory allocation failed!\n");
        return 1;
    }
    
    // 初始化数组
    for (int i = 0; i < N; i++) {
        h_A[i] = 1.0f;
        h_B[i] = 2.0f;
    }
    
    // ==================== 3. 创建 CUDA 流 ====================
    cudaStream_t stream;
    CUDA_CHECK(cudaStreamCreate(&stream));
    
    // ==================== 4. 获取默认内存池 ====================
    cudaMemPool_t memPool;
    CUDA_CHECK(cudaDeviceGetDefaultMemPool(&memPool, 0));
    
    // 可选：设置内存池属性（阈值等）
    // 设置内存池的释放阈值：当空闲内存超过此值时，缓存会释放部分内存回系统
    uint64_t threshold = ULLONG_MAX;  // 设置为最大值，禁用自动释放
    CUDA_CHECK(cudaMemPoolSetAttribute(memPool, cudaMemPoolAttrReleaseThreshold, &threshold));
    
    printf("Using memory pool for device memory allocation\n");
    
    // ==================== 5. 使用流序内存分配器分配设备内存 ====================
    float *d_A, *d_B, *d_C;
    
    // 通过流序内存分配器分配内存（异步）
    CUDA_CHECK(cudaMallocAsync(&d_A, bytes, stream));
    CUDA_CHECK(cudaMallocAsync(&d_B, bytes, stream));
    CUDA_CHECK(cudaMallocAsync(&d_C, bytes, stream));
    
    printf("Device memory allocated asynchronously via memory pool\n");
    
    // ==================== 6. 将数据从主机拷贝到设备 ====================
    // 使用流序内存传输（异步）
    CUDA_CHECK(cudaMemcpyAsync(d_A, h_A, bytes, cudaMemcpyHostToDevice, stream));
    CUDA_CHECK(cudaMemcpyAsync(d_B, h_B, bytes, cudaMemcpyHostToDevice, stream));
    
    // ==================== 7. 配置内核启动参数 ====================
    int threadsPerBlock = 256;
    int blocksPerGrid = (N + threadsPerBlock - 1) / threadsPerBlock;
    
    printf("Launching kernel with %d blocks of %d threads each\n", 
           blocksPerGrid, threadsPerBlock);
    
    // ==================== 8. 启动内核 ====================
    vectorAdd<<<blocksPerGrid, threadsPerBlock, 0, stream>>>(d_A, d_B, d_C, N);
    CUDA_CHECK(cudaGetLastError());
    
    // ==================== 9. 将结果拷贝回主机 ====================
    CUDA_CHECK(cudaMemcpyAsync(h_C, d_C, bytes, cudaMemcpyDeviceToHost, stream));
    
    // ==================== 10. 等待流完成 ====================
    CUDA_CHECK(cudaStreamSynchronize(stream));
    
    // ==================== 11. 验证结果 ====================
    int correct = 1;
    for (int i = 0; i < N; i++) {
        float expected = h_A[i] + h_B[i];  // 3.0f
        if (h_C[i] != expected) {
            printf("Error at index %d: %f != %f\n", i, h_C[i], expected);
            correct = 0;
            break;
        }
    }
    
    if (correct) {
        printf("Result verification: PASSED (all %d elements correct)\n", N);
        printf("Example: C[0] = %.1f + %.1f = %.1f\n", h_A[0], h_B[0], h_C[0]);
    }
    
    // ==================== 12. 释放资源 ====================
    // 异步释放内存（流序释放）
    CUDA_CHECK(cudaFreeAsync(d_A, stream));
    CUDA_CHECK(cudaFreeAsync(d_B, stream));
    CUDA_CHECK(cudaFreeAsync(d_C, stream));
    
    CUDA_CHECK(cudaStreamDestroy(stream));
    
    free(h_A);
    free(h_B);
    free(h_C);
    
    printf("Resources cleaned up\n");
    
    return 0;
}

五、常见问题与最佳实践

5.1 常见内存错误及排查方法

非法内存访问（Illegal Memory Access）
- 原因：访问了未分配的内存、越界访问、传递主机指针给核函数
- 排查：使用cuda-memcheck工具，它可以精确指出错误发生的位置和原因
显存泄漏（Memory Leak）
- 原因：忘记调用cudaFree释放内存
- 排查：使用nvidia-smi工具查看显存使用情况，或者使用cudaMemGetInfo查询可用显存
同步错误
- 原因：在核函数执行完成之前就访问结果
- 排查：在cudaMemcpy之前确保调用了cudaDeviceSynchronize

5.2 性能优化最佳实践

尽量使用寄存器和共享内存：它们的速度比全局内存快100倍以上
确保全局内存访问是合并的：这是最基本也是最重要的优化
避免频繁的内存分配和释放：使用显存池或者预先分配内存
合理使用统一内存：对于简单的场景可以提高开发效率，但对于性能关键的场景还是使用显式内存管理
重叠计算和数据传输：使用CUDA流和异步内存拷贝

5.3 不同内存类型的选择指南

场景	推荐内存类型
核函数局部变量	寄存器
线程块内共享数据	共享内存
主机和GPU之间的大数据传输	全局内存（显式管理）
只读常量数据	常量内存
2D图像数据	纹理内存
快速原型开发	统一内存
频繁分配释放小内存	显存池