RTX 5090 硬件单元与可编程性全面分析

心瞳几何原语

404人浏览 · 2026-03-14 10:16:55

心瞳几何原语 · 2026-03-14 10:16:55 发布

引言

GPU 的每一个硬件单元，都是为了解决一个具体的性能瓶颈而生的。

CUDA Cores 是最古老的答案。CPU 的核心少但每个很强，适合串行逻辑；GPU 的思路反过来——用几万个简单核心同时并行，暴力解决需要大量重复浮点运算的问题。最初是图形着色，后来发现科学计算、物理仿真、密码学也能用，于是 GPGPU 诞生了。

Tensor Cores 是深度学习爆发的产物。神经网络的核心运算是矩阵乘加，CUDA Cores 能算，但效率不够高。NVIDIA 在 2017 年的 Volta 架构里专门设计了 Tensor Core，把矩阵乘加做成固定电路，速度比 CUDA Cores 高一个数量级。RTX 5090 搭载的第五代 Tensor Core 新增了 FP4 精度，专门为大模型推理提速。

RT Cores 是光线追踪实时化的产物。光追的核心计算是光线与场景几何体的求交，传统上在 CUDA Cores 上计算太慢，无法实时。NVIDIA 从 Turing 架构开始引入专用的 BVH 遍历加速电路，让实时光追从理论走进游戏。

NVENC / NVDEC 是视频处理需求的产物。视频编解码是高度标准化的算法流程，与其占用宝贵的 CUDA Cores，不如做一块专用 ASIC。它功耗极低、速度极快，而且完全独立——你可以一边用 CUDA 训练模型，一边用 NVENC 推流，互不干扰。

纹理单元、光栅化、ROP 是图形渲染管线专用的固定功能单元，它们伴随 GPU 诞生，负责把三角形变成屏幕上的像素。

Optical Flow 引擎、NVJPEG 是特定应用场景下性价比的极致追求——专用硬件做专用的事，不占通用算力。

AMP（AI 管理处理器） 是 Blackwell 新引入的调度单元，专门解决 AI 推理和图形渲染混跑时的任务分配问题，让两条流水线互不阻塞。

硬件单元	可编程性	操控接口	描述
CUDA Cores (FP32/INT32)（21760个）	★★★★★	CUDA / OpenCL / Vulkan / DX12	通用可编程执行单元，每条指令完全由你的 kernel 决定
Shared Memory	★★★★★	CUDA / OpenCL	SM 内线程共享的片上内存，分配、读写、同步全部由你管理
RT Cores（第4代，170个）	★★★☆☆	Vulkan / DX12 / OptiX	光线与 BVH 求交的专用加速单元，你定义场景、光线行为和着色逻辑，求交遍历由硬件固定执行
Tensor Cores（第5代，680个）	★★☆☆☆	CUDA / cuBLAS / cuDNN / TensorRT	矩阵乘加（MMA）专用单元，支持 FP4/FP8/FP16/BF16/TF32/INT8 等精度，运算结构固定，不可改变计算逻辑
纹理单元（TMU，680个）	★★☆☆☆	OpenGL / Vulkan / DX11 / DX12 / CUDA	硬件纹理采样与过滤单元，支持双线性/三线性/各向异性过滤，采样算法固定，采样方式可配置
显存 GDDR7（32GB）	★★☆☆☆	CUDA / OpenCL / Vulkan / DX12 / OpenGL	显卡主存储空间，你负责分配和读写，物理地址映射由驱动管理
FP64 Cores（384个，每SM 2个）	★★☆☆☆	CUDA / OpenCL（编译器自动路由）	双精度浮点执行单元，消费级阉割至 FP32 算力的 1/64，仅保证 FP64 代码正确执行，不用于性能计算
SFU（特殊函数单元）	★☆☆☆☆	CUDA / OpenCL（编译器自动映射）	执行 sin/cos/exp/sqrt 等超越函数的专用单元，由编译器自动调用，开发者不直接控制
L1 Cache	★☆☆☆☆	CUDA / OpenCL（hint 级别）	SM 级一级缓存，可通过 API 调整与 Shared Memory 的容量分配比例，缓存替换策略不可控
Copy Engine（DMA）	★☆☆☆☆	CUDA / Vulkan / DX12	独立于 CUDA Cores 的异步数据搬运引擎，负责 CPU 内存与显存之间的 DMA 传输，传输逻辑不可修改
光栅化 + ROP（192个）	★☆☆☆☆	OpenGL / Vulkan / DX11 / DX12	将三角形转换为像素并执行深度测试、混合写入的固定功能单元，由渲染管线自动触发
L2 Cache（96MB）	☆☆☆☆☆	黑盒，极少 hint	全芯片共享的二级缓存（完整 GB202 为 128MB，5090 启用 96MB），替换策略完全由驱动管理，开发者几乎不可干预
AMP（AI管理处理器）	☆☆☆☆☆	驱动自动调度	Blackwell 新增的专用调度单元，自动协调 AI 推理与图形渲染的工作负载分配，对开发者透明
GigaThread Engine	☆☆☆☆☆	驱动自动调度	全芯片顶层任务调度引擎，负责将工作分发给各个 GPC，对开发者完全透明
NVENC × 3（第9代）	☆☆☆☆☆	NVENC SDK / FFmpeg / OBS	视频编码专用 ASIC，支持 H.264/H.265/AV1，完整 GB202 有 4 个，5090 启用 3 个，编码算法固定，只能通过参数控制码率、质量等
NVDEC × 2（第6代）	☆☆☆☆☆	NVCUVID SDK / FFmpeg	视频解码专用 ASIC，完整 GB202 有 4 个，5090 启用 2 个，解码流程完全固定
NVJPEG 引擎	☆☆☆☆☆	nvJPEG	JPEG 硬件编解码专用单元，算法固定，只能调用不可修改
Optical Flow 引擎	☆☆☆☆☆	Optical Flow SDK	帧间像素运动估计的专用硬件，用于帧插值和 DLSS 等功能，算法固定
显示引擎（DP 2.1b）	☆☆☆☆☆	DRM/KMS / WDDM	负责将帧缓冲输出到显示器的专用单元，支持 3× DP 2.1b + 1× HDMI 2.1b，只能配置分辨率和刷新率