NVIDIA RTX BLACKWELL GPU ARCHITECTURE (2025) 学习: NVIDIA RTX Blackwell 神经渲染架构

虾球xz

47人浏览 · 2026-06-06 21:01:39

虾球xz · 2026-06-06 21:01:39 发布

代表显卡 RTX 5090

一、架构演进背景：从光栅化到神经渲染

1.1 GPU 架构历代演进

1.2 什么是"神经渲染"？

传统渲染：GPU 对每一个像素进行物理计算，逐像素渲染。
神经渲染：用 AI 模型生成、预测、补全像素，大量像素不再需要完整计算，而是由 AI 以极低的代价"推理"出来。
用一个比喻理解：

传统方式是每道题都自己算；神经渲染是做了几道题之后，让 AI 根据规律"猜"出剩下的答案——而且猜得非常准。
关键指标的提升趋势（如文中 Figure 2 所示）：
$图像质量提升速度>摩尔定律预测的硬件性能提升速度\text{图像质量提升速度} > \text{摩尔定律预测的硬件性能提升速度}$
这意味着 AI 渲染带来的质量提升，已经超越了纯靠堆硬件所能达到的极限。

二、GB202 GPU 基本结构

2.1 芯片层级结构（从大到小）

GB202 完整芯片
│
├── 12 个 GPC（图形处理集群）
│   ├── 每个 GPC 包含：
│   │   ├── 1 个 Raster Engine（光栅化引擎）
│   │   ├── 2 个 ROP 分区（每分区 8 个 ROP 单元，共 16 个）
│   │   └── 8 个 TPC（纹理处理集群）
│   │       ├── 1 个 PolyMorph Engine（多边形变形引擎）
│   │       └── 2 个 SM（流式多处理器）
│
├── 总计：96 个 TPC，192 个 SM
├── 512 位内存接口（16 个 32 位内存控制器）
└── 128 MB L2 缓存（RTX 5090 实际配置 96 MB）

2.2 完整芯片核心数量汇总

单元类型	数量	说明
CUDA Cores	24576	通用并行计算核心
RT Cores	192	光线追踪专用硬件（第四代）
Tensor Cores	768	AI 矩阵运算专用（第五代）
Texture Units	768	纹理采样单元
FP64 Cores	384	双精度浮点，每 SM 2 个，保证程序正确性

注意：FP64 的算力只有 FP32 的 $164\frac{1}{64}$ ，仅用于保证含 FP64 代码的程序能正确运行，不是性能核心。

2.3 三代旗舰 GPU 规格横向对比

规格项目	RTX 3090 (Ampere)	RTX 4090 (Ada)	RTX 5090 (Blackwell)
GPU 代号	GA102	AD102	GB202
SM 数量	82	128	170
CUDA 核心总数	10496	16384	21760
Tensor Cores	328（三代）	512（四代）	680（五代）
RT Cores	82（二代）	128（三代）	170（四代）
RT 算力 (TFLOPS)	69.5	191	317.5
显存	24 GB GDDR6X	24 GB GDDR6X	32 GB GDDR7
内存接口位宽	384-bit	384-bit	512-bit
内存速率	19.5 Gbps	21 Gbps	28 Gbps
内存带宽	936 GB/s	1008 GB/s	1792 GB/s
纹理单元数	328	512	680
纹素填充率	555.96 GT/s	1290.2 GT/s	1636.76 GT/s
L2 缓存	6144 KB	73728 KB	98304 KB
总功耗 TGP	350 W	450 W	575 W
PCIe 接口	Gen 4	Gen 4	Gen 5
制造工艺	Samsung 8nm	TSMC 4nm	TSMC 4nm

三、SM（流式多处理器）架构

3.1 每个 SM 的组成

每个 Blackwell SM 包含：

组件	数量/大小	作用
CUDA Cores	128 个	通用浮点/整数计算
RT Core	1 个（第四代）	BVH 遍历 + 射线求交
Tensor Cores	4 个（第五代）	AI 矩阵运算
Texture Units	4 个	纹理采样
Register File	256 KB	每个线程的寄存器
L1/Shared Memory	128 KB	可配置的快速本地内存

3.2 Ada vs Blackwell SM 关键变化：INT32 统一

Ada 架构中，FP32 核心和 INT32 核心是分离的。
Blackwell 将 INT32 核心与 FP32 核心完全统一：

Ada SM：
  ┌──────────────┐  ┌─────────────┐
  │  FP32 Cores  │  │ INT32 Cores │  ← 两套独立硬件
  └──────────────┘  └─────────────┘
Blackwell SM：
  ┌────────────────────────────────┐
  │  统一核心（FP32 或 INT32）      │  ← 每个周期选一种模式
  └────────────────────────────────┘

效果：许多整数指令的吞吐量提升到 2 倍。但注意：每个时钟周期只能选择一种模式（FP32 或 INT32），不能同时跑两种。

3.3 Ada vs Blackwell SM 设计目标的根本差异

Ada SM：针对标准着色器（Standard Shaders）优化设计
Blackwell SM：针对神经着色器（Neural Shaders）优化设计
这是架构设计哲学的转变：从"算每个像素"转向"用 AI 推理像素"。

四、GDDR7 内存子系统

4.1 信号编码技术：PAM4 → PAM3

这是 GDDR6X 到 GDDR7 的核心技术变化，需要从头理解。
PAM（脉冲幅度调制） 是一种在导线上传输数据的方法，通过不同的电压幅度来表示不同的值：

PAM4（GDDR6X 使用）：
  4 个电压级别 → 每个周期传输 log₂(4) = 2 bit
  电压: ─── 高高 ─── 高低 ─── 低高 ─── 低低
  值:       11        10       01       00
PAM3（GDDR7 使用）：
  3 个电压级别 → 每个周期传输 log₂(3) ≈ 1.585 bit
  但配合创新的引脚编码方案，实际等效 1.5 bit/周期
  电压: ─── 高 ─── 中 ─── 低
  值:       +1      0      -1

PAM3 的优势：3 个电压级别比 4 个更容易区分，信噪比（SNR）更高，更不容易出错，因此可以跑得更快、更稳。
每 bit 能量效率的对比：PAM3 的电压间隔更大，抗干扰能力强，这是 GDDR7 能达到 28 Gbps（RTX 5090）乃至 30 Gbps（RTX 5080）的根本原因。

4.2 内存带宽计算

RTX 5090 的峰值内存带宽：
$内存带宽=内存速率×接口位宽8\text{内存带宽} = \text{内存速率} \times \frac{\text{接口位宽}}{8}$
$28\ \text{Gbps} \times \frac{512\ \text{bit}}{8} = 28 \times 64 = 1792\ \text{GB/s}$
与 RTX 4090 的 1008 GB/s 相比，提升了约 78%。

4.3 ECC 错误纠正

GDDR7 内置 ECC（错误纠正码）在 DRAM 芯片内部：

支持单比特错误纠正（SEC）
永久开启，无性能损失
无需软件开关控制
同时支持 EDR（错误检测与重传） 技术

五、第五代 Tensor Core 与 FP4 支持

5.1 Tensor Core 的作用

Tensor Core 是专门做矩阵乘累加（Matrix Multiply-Accumulate，MMA） 运算的硬件。AI 推理和训练的核心计算就是大量矩阵乘法。

普通 CUDA Core 做矩阵乘法（A×B=C）：
  → 一次做一个乘法，串行或少量并行
Tensor Core 做矩阵乘法：
  → 一次做整块矩阵的乘加，吞吐量高出数十倍

5.2 浮点精度格式演进

格式	位数	内存占用	精度	适用场景
FP32	32 bit	4 字节	最高	标准训练
FP16	16 bit	2 字节	高	大多数模型默认
BF16	16 bit	2 字节	高（动态范围更大）	训练
TF32	19 bit	-	中高	Tensor Core 训练加速
FP8	8 bit	1 字节	中	推理加速
FP6	6 bit	0.75 字节	较低	Blackwell 新增
FP4	4 bit	0.5 字节	低（量化补偿）	Blackwell 新增，极限压缩

5.3 FP4 的意义：让大模型跑在消费级 GPU 上

以 Black Forest Labs 的 FLUX.dev 模型为例：

精度	所需显存	可运行的 GPU
FP16（默认）	>23 GB	仅 RTX 4090 / RTX 5090 / 专业卡
FP4	<10 GB	更多 RTX 系列均可运行

生成速度对比（30步图像生成）：
$秒\text{RTX 4090 FP16：} 15\ \text{秒} \quad \xrightarrow{\text{换用 5090 + FP4}} \quad \text{RTX 5090 FP4：} \approx 5\ \text{秒}$
速度提升约 3 倍，同时显存需求降低 超过一半。
FP4 的核心思路类似文件压缩——用更少的位数存储数值，损失极小精度，换取巨大的效率提升。配合 NVIDIA TensorRT Model Optimizer 的高级量化算法，质量损失几乎不可察觉。

六、第四代 RT Core 与光线追踪

6.1 BVH（包围体层次结构）基础

光线追踪的核心问题是：一条光线（Ray）会不会和场景中的哪个三角形相交？
暴力做法是每条光线和每个三角形都测试一遍，但场景有几百万个三角形，这太慢了。
BVH 用一棵树来组织场景几何体：

测试一条光线时，从根节点往下走：若光线不与某节点的包围盒相交，则整棵子树都跳过。这样大多数三角形都无需测试，效率极高。
RT Core 专门用硬件加速两个操作：

BVH 遍历（沿树向下搜索）
射线-三角形求交测试（Ray-Triangle Intersection）
第四代 RT Core 相比第三代（Ada），射线-三角形求交速度提升 2 倍。

6.2 Mega Geometry：解决 Nanite 与光线追踪的兼容难题

问题背景

虚幻引擎 5 的 Nanite 系统用**集群（Cluster）**来管理 LOD（细节层次）：

场景中的物体被切割成约 128 个三角形一组的"集群"
随着摄像机远近，动态替换不同精度的集群
每帧可能有数以千计的集群更换
问题：光线追踪需要 BVH，而 BVH 必须提前构建。每帧大量集群变动 → 需要重建大量 BVH → 现有实现撑不住。

Mega Geometry 的解决方案：CLAS

CLAS（Cluster-Level Acceleration Structure，集群级加速结构）：

传统 BVH 构建（以三角形为单位）：
  100万个三角形 → 构建100万个单元的 BVH → 极慢
CLAS 方案（以集群为单位）：
  100万个三角形 / 每集群约100个三角形 = 约1万个集群
  → 构建1万个单元的 BVH → 快了约 100 倍！

处理量减少了：
$处理量减少≈三角形数每集群三角形数≈1100\text{BVH 处理量减少} \approx \frac{\text{三角形数}}{\text{每集群三角形数}} \approx \frac{1}{100}$
即减少了两个数量级。
集群缓存机制：CLAS 在物体从磁盘加载时生成，之后缓存复用，不必每帧重新生成。

问题二：大规模场景的 TLAS 重建

TLAS（Top-Level Acceleration Structure，顶层加速结构）把整个场景的所有物体组织在一起。
问题：场景物体数量从几千增长到数十万时，每帧重建整个 TLAS 代价极大。
解决方案：PTLAS（Partitioned TLAS，分区顶层加速结构）

静态物体所在分区不需要每帧重建，只更新真正发生变化的分区，大幅降低 CPU 开销，整个 BVH 管理几乎可以完全在 GPU 上完成。

Mega Geometry 的扩展应用：细分曲面

细分曲面（Subdivision Surfaces）是电影渲染中常用的技术——用低多边形网格，经过迭代细分（如 Catmull-Clark 算法）得到光滑高精度表面。
以前问题：每帧动画需要重新细分 → 重新建 BVH → 太慢。
Mega Geometry 方案：细分过程直接生成 CLAS，再极速构建 BVH，实现前所未有的实时性能。

Mega Geometry 支持范围

API 支持：DirectX 12 (DXR via NVAPI)、Vulkan（厂商扩展）、OptiX 9.0
GPU 支持：从 Turing 架构起的所有 RTX GPU（Blackwell 有专用硬件加速）
显存优化：Blackwell 的 CLAS 压缩方案可减少典型场景（如 Nanite 场景）数百 MB 的显存占用

6.3 Linear Swept Spheres（LSS）：毛发/草地的硬件加速

旧方案的问题

渲染头发、毛皮、草地等细丝状几何体，传统方案对比：

方案	质量	性能	显存	问题
贴图面片（Cards）	低	快	低	画质差
DOTS（三角条带）	中	中	高	边缘锯齿瑕疵
LSS（线性扫球）	高	快	低	Blackwell 新增，硬件加速

LSS 的原理

用"球沿线段扫过的体积"来近似每一根头发丝：

一根头发 = 一个球从点A沿直线移动到点B所扫过的形状
（起点和终点的球半径可以不同，模拟锥形发丝）
特殊情况：单个球（无线段），可用于粒子系统

LSS 与 DOTS 相比：

速度快约 2 倍
显存占用减少约 5 倍
没有边缘锯齿瑕疵

七、Shader Execution Reordering（SER）2.0

7.1 为什么需要 SER？

GPU 把着色器线程分组成 Warp（线束），每组 32 个线程同时执行相同的指令（SIMD 模式）。
问题：光线追踪中，不同光线命中了不同的材质，需要执行不同的着色器代码：

Warp 里的 32 条光线：
  线程0-7：命中金属材质 → 执行金属着色器
  线程8-15：命中玻璃材质 → 执行玻璃着色器
  线程16-23：命中皮肤材质 → 执行皮肤着色器
  线程24-31：没有命中   → 空转等待
结果：同一时刻 32 个线程只有部分在工作，其余等待
      这叫"执行发散"（Divergence），效率极低

7.2 SER 的解决思路

SER 在运行时动态重新排列线程，把执行相同着色器的线程归到一起：

SER 重排后：
  Warp A 的 32 个线程：全部执行金属着色器（满载）
  Warp B 的 32 个线程：全部执行玻璃着色器（满载）
  Warp C 的 32 个线程：全部执行皮肤着色器（满载）

7.3 Blackwell SER 2.0 的改进

核心重排逻辑效率提升 2 倍，重排开销更低
更高精度的线程组合，提取更好的线程一致性
新增对神经着色器的优化：需要调用 Tensor Core 的线程，可直接被发送到 Tensor Core
现有利用了 SER 的游戏和渲染软件无需修改代码即可直接受益

八、AI Management Processor（AMP）

8.1 传统 GPU 调度的瓶颈

传统架构中，GPU 上下文（Context）的调度由 CPU 负责：

传统流程：
  CPU：我有新的渲染任务！ → 发给 GPU
  GPU：好的，处理中……
  GPU：处理完了！ → 通知 CPU
  CPU：收到，准备下一批任务…… → 再发给 GPU
问题：CPU ↔ GPU 频繁来回通信，有延迟

8.2 AMP 的工作原理

AMP 是位于 GPU 流水线前端的一个专用 RISC-V 处理器，接管 CPU 对 GPU 任务的调度职责：

AMP 与微软 HAGS（硬件加速 GPU 调度） 架构兼容，自 Windows 10 2020 年 5 月更新起支持。

8.3 AMP 的实际效果

对 LLM/AI 推理：减少"首次响应时间"（Time to First Token）
对游戏：消除 CPU 调度延迟引起的帧率抖动
对多任务：允许 AI 工作负载（如语音识别、动画模型）和游戏渲染公平共享 GPU 资源

九、视频编解码新特性

9.1 4:2:2 色彩子采样支持

之前章节介绍过色彩子采样原理。Blackwell 首次支持 4:2:2 的硬件编解码（前代 GPU 仅软件支持）。
三种格式的数据量对比（以 4:4:4 未压缩为基准 $1$ ）：
$数据量=1\text{4:4:4 数据量} = 1$
$数据量=23≈0.667\text{4:2:2 数据量} = \frac{2}{3} \approx 0.667$
$数据量=12=0.5\text{4:2:0 数据量} = \frac{1}{2} = 0.5$

格式	相对数据量	色度信息保留	典型用途
4:4:4	100%	全部	专业后期，VFX 合成
4:2:2	67%	横向减半（50%）	专业摄像机录制，色彩校正
4:2:0	50%	仅 25%	消费级播放，蓝光，流媒体

4:2:2 适合"还在制作中"的视频——色彩校正时需要更多色彩信息，等制作完成再压缩成 4:2:0 分发。
软件解码 4:2:2 对 CPU 负担很重，Blackwell 的硬件支持解决了这个问题。

9.2 第九代 NVENC 编码器

改进项目	内容
AV1 和 HEVC 编码质量	BD-BR PSNR 提升 +5%
新增 AV1 UHQ 模式	额外再提升 +5%（更慢但更高质量）
AV1 自然内容 VMAF	比 Ada 提升 +10%（UHQ 下 +18%）
新增支持	4:2:2 H.264 和 HEVC 编码
编码器数量	最多 3 个（RTX 5090）

编码速度对比：
$3090×4\text{RTX 5090 编码速度} = \text{RTX 4090} \times 1.5 \approx \text{RTX 3090} \times 4$
（RTX 3090 只有 1 个编码器，RTX 5090 有 3 个）
BD-BR 是衡量视频编码效率的标准指标：BD-BR PSNR 下降意味着相同质量所需的码率更低（即更高效）。文中是"rate savings over Ada"，即相比 Ada，节省了一定百分比的码率。

9.3 第六代 NVDEC 解码器

H.264 硬件解码速度提升 2 倍（与 HEVC 和 AV1 的解码速度持平）
新增 4:2:2 H.264 和 HEVC 硬件解码支持

9.4 DisplayPort 2.1b

Blackwell 升级到 DisplayPort 2.1b，采用 UHBR 20 模式：
$Gbps\text{总带宽} = 20\ \text{Gbps/lane} \times 4\ \text{lanes} = 80\ \text{Gbps}$
（相比 DP 1.4a 的 32.4 Gbps，提升了约 2.5 倍）
开启 DSC 后支持的最高规格：

分辨率	最高刷新率
8K（7680×4320）	165Hz
4K（3840×2160）	480Hz

注意：最高速率模式需要 DP80LL 认证线缆。

十、Max-Q 功耗效率改进（笔记本 GPU 重点）

10.1 电源状态的困境

GPU 在不同工作状态下处于不同的功耗等级：

高性能状态（Active）── 功耗高，切换快
    ↕ 进入/退出有延迟
低功耗状态（Sleep）── 功耗低，切换慢

越深的省电状态，进入和退出需要的时间越长，导致 GPU 不敢"轻易"进入深度睡眠，错过省电机会。

10.2 三项核心改进

改进1：高级电源门控（Advanced Power Gating）

最深睡眠状态进入速度比 Ada 快 10 倍
新增多级细粒度门控，可以关闭芯片上任意局部区域的电源
首次实现对整个内存时钟树的门控（利用 GDDR7 的快速唤醒特性）
新增独立电压轨，GPU 核心和内存系统可以分开供电、分开控制

改进2：加速频率切换（Accelerated Frequency Switching）

这是 10 年来最大的时钟架构重构：
$GPU×1000\text{Blackwell 频率响应速度} = \text{前代 GPU} \times 1000$
以前：整帧渲染过程中，时钟频率基本锁定不变。
Blackwell：时钟频率可以在一帧内根据工作量动态调整——有工作时冲高频，等待 CPU 数据时降频，极大提升能效比。

传统时钟策略：
  时间 ───────────────────────────────────────────→
  频率 ████████████████████████████████████████████  (固定高频)
       工作  |等CPU|工作  |等CPU|工作   (等待时浪费电)
Blackwell：
  时间 ───────────────────────────────────────────→
  频率 ████░░░░████░░░░████  (等待时降频，工作时冲高)

改进3：低延迟睡眠（Low Latency Sleep）

以运行小型语言模型（SLM）推理为例（Figure 23）：
通过三项技术组合（Blackwell 更快的推理 + 更低功耗的过渡状态 + 10x 更快的深度睡眠），整体功耗节省可达 50%。
$提升\text{总省电} = \underbrace{\text{活跃期缩短}}_{\text{性能更快}} + \underbrace{\text{过渡期更低功耗}}_{\text{电源/电压门控}} + \underbrace{\text{更多时间处于深睡眠}}_{\text{睡眠速度 10x 提升}}$

十一、整体架构关系图

十二、关键数字速查

指标	数值	说明
SM 数量 (RTX 5090)	170	比 RTX 4090 多 42 个
CUDA 核心总数	21760	每 SM 128 个
内存带宽	1792 GB/s	GDDR7 512-bit
RT 算力	317.5 TFLOPS	约为 RTX 4090 的 1.66x
L2 缓存	96 MB (5090)	比 RTX 3090 大 16 倍
FP4 相比 FP16 内存节省	>50%	让更多模型跑在更多显卡上
CLAS 降低 BVH 处理量	~100 倍	Mega Geometry 核心收益
LSS vs DOTS 速度提升	~2 倍	毛发渲染
LSS vs DOTS 显存节省	~5 倍	毛发渲染
SER 2.0 重排效率	2 倍于 Ada SER	光线追踪线程一致性
深度睡眠进入速度	10 倍于 Ada	省电性能关键指标
频率切换响应速度	1000 倍于前代	动态工作负载适应
NVENC 编码器数量	3 个	RTX 5090，速度约 4090 的 1.5x

NVIDIA DLSS 4 详细解析

一、DLSS 是什么？从零理解

1.1 核心问题：渲染太贵

游戏画面的生成方式是"光栅化"或"光线追踪"——GPU 对屏幕上的每一个像素进行物理计算。分辨率越高、帧率越高，计算量越大。
比如 4K（3840×2160）@ 60fps，每秒需要计算：
$3840 \times 2160 \times 60 = 497,664,000 \approx 5 \text{ 亿个像素}$
而 4K @ 144fps 则是：
$3840 \times 2160 \times 144 \approx 12 \text{ 亿个像素/秒}$
计算量巨大。DLSS 的核心思路是：不要每个像素都"算"出来，让 AI 把低分辨率的画面"推理"成高分辨率。

1.2 DLSS 的完整名称与定位

DLSS = Deep Learning Super Sampling（深度学习超级采样）
但现在 DLSS 已经是一套技术组合，包含多个子技术：

二、DLSS 版本演进

版本	年份	关键技术	主要改进
DLSS 1	2018	CNN 模型	初代，质量一般
DLSS 2	2020	改进 CNN	通用化，质量大幅提升
DLSS 3	2022	帧生成（Ada）	首次 AI 生成一帧
DLSS 4	2025	多帧生成 + Transformer	最多生成3额外帧，模型架构换代

三、DLSS 4 多帧生成（Multi Frame Generation，MFG）

3.1 帧生成的基本思路

"帧生成"的意思是：GPU 正常渲染了 1 帧，然后 AI 根据这 1 帧的内容"编造"出额外的帧插在中间，让画面看起来更流畅。

DLSS 3（Ada，单帧生成）：
  渲染帧    AI生成帧
  ─────────────────────────────────────────→ 时间
    A    │    G1   │    B    │    G2   │
  (真实) │  (AI)   │  (真实) │  (AI)   │
  1 真实帧 → 1 AI帧 → 显示 2 帧（帧率约 2x）
DLSS 4（Blackwell，多帧生成）：
  渲染帧        AI生成帧
  ─────────────────────────────────────────→ 时间
    A    │ G1 │ G2 │ G3 │    B    │ G4 │ G5 │ G6 │
  (真实) │(AI)│(AI)│(AI)│  (真实) │(AI)│(AI)│(AI)│
  1 真实帧 → 3 AI帧 → 显示 4 帧（帧率最高 4x）

3.2 多帧生成的技术挑战与解决方案

生成一帧已经不容易，生成三帧更难。Blackwell 通过以下技术组合实现：

问题一：AI 推理开销太大

DLSS 3 的帧生成 AI 模型需要每帧运行一次，且只能生成一帧。
Blackwell 的新模型：
$40%）\text{新模型速度} = \text{旧模型} \times 1.4 \quad \text{（快 40\%）}$
$30%）\text{新模型显存占用} = \text{旧模型} \times 0.7 \quad \text{（少 30\%）}$
而且新模型只运行一次就能生成 1~3 帧，而不是每生成一帧就跑一次模型。

问题二：光流场（Optical Flow Field）计算慢

光流场是什么？理解它需要知道帧生成的原理：

AI 需要知道画面中每个像素"从上一帧到这一帧移动了多少"，才能预测下一帧的位置。这个运动信息的集合就叫光流场。

光流场示意（每个像素有一个运动向量）：
上一帧           本帧
┌────────────┐   ┌────────────┐
│  [车]      │   │    [车]    │
│  →→→       │   │    →→→     │
└────────────┘   └────────────┘
光流场（运动向量图）：
┌────────────┐
│ →→→→→→→→  │  (车的区域：向右移动了 X 像素)
│ · · · · ·  │  (背景：静止)
└────────────┘

DLSS 3 用的是专用硬件光流加速器。
DLSS 4 换成了一个轻量 AI 模型来计算光流场，速度更快，且与帧生成 AI 模型协同工作，整体效率更高。

问题三：多帧之间的时序（Frame Pacing）不均匀

DLSS 3 用 CPU 来控制帧的输出时序，CPU 的调度有波动，多帧生成时这个波动会被放大，导致画面不流畅。
Blackwell 的解决方案：Flip Metering（翻帧计时）
把帧的输出时序控制转移到 GPU 的显示引擎来做，精度更高，波动更小。为此 Blackwell 的显示引擎像素处理能力提升了 2 倍，专门支持高分辨率高刷新率下的硬件级帧计时。

3.3 支持 MFG 的 Blackwell 专属硬件

硬件	作用
第五代 Tensor Core	更快执行光流和帧生成的 AI 模型
AMP（AI 管理处理器）	统筹调度 AI 推理、图形渲染、帧计时三者
增强版显示引擎	硬件 Flip Metering，像素处理能力 2x

MFG 是 Blackwell 专属功能，不向下兼容旧卡（因为依赖上述硬件）。

四、Transformer 模型：DLSS 神经网络架构的换代

4.1 旧架构：CNN（卷积神经网络）

CNN（Convolutional Neural Network）是 DLSS 从 2020 年用到 2024 年的模型架构。
它的工作方式：

CNN 处理图像的方式（以像素为例）：
原始图像
   ↓
用小窗口（如 3×3）扫描每个局部区域
   ↓
提取局部特征（边缘、颜色渐变…）
   ↓
把局部特征逐层"向上汇总"（类似树形结构）
   ↓
得到高层理解
特点：
  - 只看"附近"的像素关系
  - 远处的像素关联需要很多层才能建立
  - 计算效率高（卷积运算天然并行）

4.2 新架构：Transformer（注意力机制）

Transformer 是近年来 AI 领域最重要的架构革命，ChatGPT 背后也是 Transformer。
它的核心思想是自注意力（Self-Attention）：

Transformer 的视野：
分析像素 P 时，可以直接"关注"图像中任意位置的像素
传统 CNN：                  Transformer：
  P 只看身边 3×3 的邻居      P 可以看整张图任何地方
  ┌───────────────┐          ┌───────────────┐
  │ · · · · · · · │          │ ←←← P →→→→→ │
  │ · · P · · · · │          │ ↑   P   ↓    │
  │ · · · · · · · │          │ ←←←   →→→→→ │
  └───────────────┘          └───────────────┘
  视野小，需要多层才能         视野大，一步就能建立
  建立远程关联                远程像素间的关联

注意力的含义：模型学会了"看哪里"。对于超分辨率任务，不是每个像素都一样重要——运动中的物体边缘、复杂光照区域需要更多"注意力"，Transformer 会自动学会把计算资源集中在最重要的地方。

4.3 CNN vs Transformer 在 DLSS 中的对比

特性	CNN 模型	Transformer 模型
感受野（视野范围）	局部，需多层扩展	全局，一步到位
远程像素关联	困难	容易
参数规模	较小	DLSS 4 可容纳 2x 更多参数
时间一致性	一般	更好（跨帧稳定）
运动中的细节	容易模糊	更清晰
鬼影（Ghosting）	较多	明显减少

参数量翻倍的意义：神经网络的参数就像它的"知识储量"，参数越多，模型对复杂场景的理解能力越强。DLSS 4 Transformer 模型的参数量是 CNN 版本的 2 倍，意味着它可以处理更复杂的光照、更细腻的纹理、更难的运动场景。

五、DLSS 超分辨率（Super Resolution，SR）

5.1 工作原理

SR 的核心任务：用低分辨率输入，重建高分辨率输出。

输入（低分辨率）：
  ┌────────┐
  │ 小图   │  例：1080p（1920×1080）
  │ 模糊   │
  └────────┘
额外输入：
  - 运动向量（每个像素从哪里来）
  - 历史帧反馈（前几帧的高分辨率结果）
AI 推理过程：
  "结合多帧信息，推断高分辨率下每个像素应该是什么"
输出（高分辨率）：
  ┌────────────────┐
  │   大图         │  例：4K（3840×2160）
  │   清晰细节     │
  └────────────────┘

性能提升逻辑：
$实际渲染量=目标分辨率像素数超分辨率倍率2\text{实际渲染量} = \frac{\text{目标分辨率像素数}}{\text{超分辨率倍率}^2}$
例如 4K 输出用 DLSS “质量模式”（约 $23\frac{2}{3}$ 倍输入）：
$实际渲染像素=3840×2160×(23)2=3840×2160×49≈1920×1080\text{实际渲染像素} = 3840 \times 2160 \times \left(\frac{2}{3}\right)^2 = 3840 \times 2160 \times \frac{4}{9} \approx 1920 \times 1080$
GPU 只需渲染 1080p，AI 重建为 4K，计算量节省约 $49×100%≈55.6%\frac{4}{9} \times 100\% \approx 55.6\%$ 。

5.2 Transformer SR 的改进

Transformer 版本 SR 相比 CNN 版本的具体改进：

时间稳定性（Temporal Stability）提升：相邻帧之间不会出现像素"跳动"或闪烁
鬼影（Ghosting）减少：快速运动物体后面不再有残影
运动中的细节更多：物体移动时不再变模糊
抗锯齿改善：斜线和曲线的边缘更平滑

六、DLSS 光线重建（Ray Reconstruction，RR）

6.1 光线追踪的采样困境

光线追踪的质量理论上取决于从每个像素发出多少条光线：
$每像素光线数∝噪点减少量∝渲染时间\text{每像素光线数} \propto \text{噪点减少量} \propto \text{渲染时间}$
实时游戏中，每像素只能发射极少数光线（通常 1~4 条），结果画面非常嘈杂：

少量采样的光追画面（示意）：
真实场景              采样结果（嘈杂）
┌──────────────┐      ┌──────────────┐
│  均匀柔和阴影 │  →   │ ·  ·· · ·   │
│  光滑反射    │      │  ·  · · ··   │
└──────────────┘      └──────────────┘
传统去噪：手工设计算法（手调降噪器），平均周围像素→模糊
RR：        AI 推理"这里应该是什么"→保留细节

6.2 RR 的作用

RR 替换了传统的手调降噪器（Hand-tuned Denoiser）。
传统降噪器的问题：为了消除噪点，会对周围像素做平均，结果是画面变模糊，尤其是阴影边缘、反射细节损失严重。
RR（AI 降噪）的优势：AI 模型在 NVIDIA 超级计算机上训练，见过大量光追场景，能"理解"哪里应该有细节、哪里是真正的噪点，从而填充像素而不是平均像素。
Transformer 版 RR 的提升重点：

复杂光照场景（间接照明、焦散、多次反弹光线）质量大幅提升
常见降噪瑕疵（闪烁、模糊、结构错误）显著减少
文档原话：所有典型降噪器的常见瑕疵都被"显著减少"

七、深度学习抗锯齿（DLAA）

7.1 什么是锯齿？

屏幕是由方形像素组成的，而游戏中有大量斜线和曲线。斜线用方形像素表示时，边缘会出现台阶状的"锯齿"：

没有抗锯齿：         有抗锯齿：
  ■                   ■
  ■■                  ▒■
    ■■                ■▒■
      ■■              ■■▒
        ■               ■
（■=完全填充  ▒=半透明混合）

7.2 DLAA vs 传统抗锯齿 vs DLSS SR

技术	渲染分辨率	输出分辨率	目的
MSAA（传统）	2x~4x 目标	目标	抗锯齿，消耗巨大
DLSS SR	低于目标	目标	性能提升+抗锯齿
DLAA	等于目标（原生）	目标	纯粹最高质量抗锯齿

DLAA 的目标用户：不在乎性能，只要最高画质的玩家。渲染在原生分辨率，然后用与 SR 相同的 Transformer AI 技术做抗锯齿处理，质量比任何传统抗锯齿方案都好。
DLAA 改进：

更好的时间稳定性：边缘在运动时不会抖动
更多运动细节：快速移动的物体边缘依然清晰
更平滑的边缘：斜线和曲线几乎看不出锯齿

八、整体数据流程图

九、关键数字速查

指标	数值	说明
MFG 生成帧数	最多 3 帧/真实帧	理论帧率最高 4x
新帧生成 AI 模型速度	旧模型 +40%	Blackwell 专属
新帧生成 AI 显存占用	旧模型 -30%	更节省显存
Transformer 参数量	CNN 的 2 倍	更强大的 AI
显示引擎像素处理能力	Ada 的 2 倍	支持硬件 Flip Metering
SR 节省渲染量（质量模式）	约 55%	4K 输出只需渲染 1080p

十、总结

DLSS 4 的核心进步可以分两个层面理解：
层面一：帧数量的飞跃（MFG）
$显示帧率=真实渲染帧率×N(N≤4)\text{显示帧率} = \text{真实渲染帧率} \times N \quad (N \leq 4)$
GPU 真实渲染 30fps，经过 MFG 生成 3 帧，显示器看到的是 120fps。代价是：多帧生成的 AI 帧不如真实渲染帧精确，但对玩家来说流畅度提升是真实的。
层面二：单帧质量的飞跃（Transformer 模型）
从 CNN 切换到 Transformer，相当于给 DLSS 换了一个"更聪明的大脑"——视野从局部扩大到全局，参数量翻倍，理解复杂场景的能力大幅增强，带来的是更稳定的画面、更少的鬼影、更细腻的运动细节。
两者结合：既要帧率高，又要画面好——这是 DLSS 4 的设计目标。

NVIDIA RTX Blackwell 神经着色器详细解析

一、着色器是什么？从零开始理解

1.1 着色器的本质

“着色器”（Shader）是一段运行在 GPU 上的小程序，专门负责决定屏幕上每个像素"长什么样"。
用最简单的比喻理解：

如果 GPU 是一个巨大的工厂，着色器就是工厂里每条流水线的工艺手册——告诉工人（计算核心）每件产品（像素）该怎么加工。
着色器的核心工作：计算光照、颜色、阴影、反射，最终输出每个像素的颜色值 $(R, G, B, A)$ 。

1.2 着色器的发展历程

1.3 每个阶段的关键突破

阶段	年代	核心突破	能做什么新事情
固定功能	~2000前	硬连线逻辑	基础纹理贴图和光照
顶点着色器	2001	可编程顶点变换	波浪变形、骨骼动画
像素着色器	2002	逐像素可编程	动态光照、法线贴图
几何着色器	2006	运行时生成三角形	粒子系统、草地
计算着色器	2009	通用 GPU 计算	物理模拟、后处理
网格着色器	2020	统一几何管线	更高效的高多边形场景
RTX 着色器	2018	专用光追硬件	实时反射、全局照明
神经着色器	2025	AI 融入着色器	神经纹理、神经材质、神经脸

二、神经着色器：范式转变

2.1 传统着色器 vs 神经着色器的根本区别

传统着色器：程序员手写数学公式，描述光与材质的物理行为。
例如，经典的 Phong 光照模型：
$I=kaIa+kdId(L^⋅N^)+ksIs(R^⋅V^)nI = k_a I_a + k_d I_d (\hat{L} \cdot \hat{N}) + k_s I_s (\hat{R} \cdot \hat{V})^n$
其中 $k_a, k_d, k_s$ 分别是环境光、漫反射、镜面反射系数， $L^,N^,R^,V^\hat{L}, \hat{N}, \hat{R}, \hat{V}$ 分别是光线方向、法线、反射方向、视线方向。
这是一个近似公式，写起来费脑筋，而且复杂材质（如皮肤、丝绸、珍珠）的物理行为根本无法用简单公式描述。
神经着色器：不写公式，而是训练一个神经网络来近似这个函数：
$f物理(光照输入)⏟复杂但精确≈fθ(光照输入)⏟神经网络近似，速度快\underbrace{f_{\text{物理}}(\text{光照输入})}_{\text{复杂但精确}} \approx \underbrace{f_{\theta}(\text{光照输入})}_{\text{神经网络近似，速度快}}$
训练完成后，推理（inference）时用神经网络直接得到结果，比手写数学公式更灵活，能处理更复杂的效果，而且往往更快。

2.2 为什么 Blackwell 才能大规模用神经着色器？

关键技术突破：Cooperative Vectors API
以前，Tensor Core（AI 矩阵运算单元）只能被 CUDA 计算程序调用，普通的图形着色器（像素着色器、光追着色器等）无法访问 Tensor Core。
Blackwell 配合微软新增的 Cooperative Vectors API（支持 DX12 和 Vulkan）：

以前：
  图形着色器（Pixel Shader, RT Shader）
       ↓  只能用 CUDA Cores
  无法访问 Tensor Core
Blackwell + Cooperative Vectors：
  图形着色器（Pixel Shader, RT Shader, 任意着色器）
       ↓  现在可以直接调用
  Tensor Core（AI 矩阵运算）

配合 Slang 可微着色语言，开发者可以在普通着色器代码里写神经网络推理，像写普通着色器一样自然。

2.3 神经着色器能做什么？

应用	解决的问题	具体技术
材质渲染	复杂多层光学材质实时化	RTX Neural Materials
纹理存储	显存里的纹理太占空间	RTX Neural Texture Compression
全局光照	多次反弹光线太慢	Neural Radiance Cache
皮肤渲染	次表面散射实时化	RTX Skin
面部渲染	突破恐怖谷效应	RTX Neural Faces

三、RTX Neural Materials（神经材质）

3.1 问题背景

电影 CGI 中，一件物体的材质可能由多个光学层叠加组成，例如：

人类皮肤的光学层次：
  外层油脂膜   → 镜面反射
  表皮层        → 散射 + 色素
  真皮层        → 次表面散射
  皮下脂肪层   → 深层散射
每一层都要单独光线追踪 → 实时渲染代价极高

3.2 神经材质的解决思路

用神经网络近似整个多层材质系统：

传统方案：
  输入（光照角度、材质参数）
    → 逐层光线追踪计算
    → 叠加各层结果
    → 输出像素颜色
  时间：长（电影渲染级别）
神经材质方案：
  训练阶段（离线）：
    大量光照条件 → 多层光追计算 → 收集结果
    → 训练神经网络拟合这个映射关系
  推理阶段（实时）：
    输入（光照角度、材质参数）
    → 神经网络前向推理（几毫秒）
    → 输出像素颜色

结果：接近电影级别的材质质量，却能以游戏帧率运行。

四、RTX Neural Texture Compression（神经纹理压缩，NTC）

4.1 纹理占用显存的问题

现代游戏的高精度纹理非常占显存。以文中演示为例：

方案	显存占用	视觉质量
标准材质	1110 MB	标准
神经材质（NTC）	333 MB	更高

压缩比：
$压缩比=1110333≈3.3×\text{压缩比} = \frac{1110}{333} \approx 3.3 \times$
即只用原来约 $13\frac{1}{3}$ 的显存，同时画质更好。
与传统块压缩格式（BC7 等）相比，NTC 可提供高达 7:1 的压缩比，而传统块压缩通常只有 4:1~8:1 且质量较差。

4.2 NTC 的原理

传统纹理压缩（如 BC7）：把纹理切成固定 $4×44\times4$ 像素的块，每块存储一个近似的颜色查找表。简单高效但灵活性差。
神经纹理压缩：训练一个小型神经网络，输入纹理坐标 $(u, v)$ ，输出该点的颜色值 $(R, G, B, A)$ ：
$fθ(u,v)≈纹理(u,v)f_\theta(u, v) \approx \text{纹理}(u, v)$
神经网络的参数（权重）就是压缩后存储的数据，比原始纹理图像小得多。解压时只需做一次神经网络前向推理，速度很快。

4.3 随机纹理过滤（Stochastic Texture Filtering，STF）

NTC 的一个配套技术。普通纹理采样有三线性过滤、各向异性过滤等硬件加速方案，但 NTC 用神经网络解压时无法直接用这些硬件过滤器。
STF 的思路：在采样时引入随机性：

传统过滤：
  采样点周围几个像素 → 加权平均 → 平滑结果
STF：
  在采样点附近随机抖动采样位置
  → 多帧累积 → 统计上等价于平滑过滤
  → 消除摩尔纹和锯齿

STF 还能实现高阶过滤（如立方过滤、高斯过滤），效果超过传统硬件过滤器，而代价只是一次额外的点采样。
Blackwell 的点采样速度是 Ada 的 2 倍，专门为 STF + NTC 工作流提速。

五、Neural Radiance Cache（神经辐射缓存，NRC）

5.1 全局光照的困难

“全局光照”（Global Illumination，GI）是指光线在场景中经过多次反弹后照亮各个角落的效果，如：

光源
  │
  ↓ 第1次反弹：打到地板
  │
  ↓ 第2次反弹：从地板反射到墙壁
  │
  ↓ 第3次反弹：从墙壁到天花板
  │
  ↓ 第N次反弹……
  │
  → 最终到达摄像机

完整追踪所有反弹代价极高：
$计算量∝(每像素光线数)×(反弹次数)\text{计算量} \propto (\text{每像素光线数}) \times (\text{反弹次数})$
实时渲染只能负担极少反弹次数，导致间接光照质量差。

5.2 NRC 的工作原理

NRC 是一个在游戏运行时实时训练的小型神经网络，它缓存并近似场景的辐射信息（即"哪个方向来多少光"）。

NRC 工作流程：
  路径追踪光线
       │
  第1次反弹后到达某点
       │
       ↓
  查询 NRC 神经网络：
  "从这个位置、这个方向，
   经过更多次反弹后，最终会接收到多少光？"
       │
       ↓
  NRC 推理结果：给出近似答案
       │
       ↓
  无需继续追踪 → 节省大量计算
同时：
  少量完整路径（多次反弹）
       │
       ↓
  用来在线训练 NRC，保持准确性

关键特性：NRC 边玩边训练（on-the-fly training），针对当前游戏场景实时优化自己，因此对各种场景都能给出准确的间接光照估计。

5.3 NRC 的收益

GPU 不再需要追踪完整的多次反弹光线
有限的光线预算可以换来更高质量的间接光照
自适应训练使其对场景变化（动态光源、玩家移动）保持准确

六、RTX Skin（皮肤渲染）

6.1 皮肤渲染难在哪里？

普通不透明材质（木头、金属）的光照计算相对简单：光线打到表面，根据法线和材质计算反射，完成。
皮肤是半透明材质，光线会穿透进入材质内部，在内部散射传播，从不同位置射出来：

不透明材质（木头）：
  光线 →→ [表面] ← 只在表面发生反射
半透明材质（皮肤）：
  光线 →→ [表面] → 进入内部 → 散射 → 从其他位置射出
              ↑
        次表面散射（Subsurface Scattering, SSS）

次表面散射的视觉效果：

用手电筒照手指，手指边缘会透出红色的光——这就是 SSS
皮肤看起来"柔软"有血色，而不是像塑料一样硬
耳廓在强光下半透明

6.2 RTX Skin 的实现

RTX Skin 将电影级别的次表面散射技术带入实时游戏渲染，是游戏中首次实现光线追踪次表面散射。
技术路径：用路径追踪来模拟光线在皮肤各层中的散射路径，由神经着色器进行加速和近似，使其能在实时帧率下运行。
艺术控制：可以从微妙（自然肤色）到强烈（半透明感）自由调节，完全由美术师控制程度。

七、RTX Neural Faces（神经面部渲染）

7.1 恐怖谷效应（Uncanny Valley）

人类从出生起就对人脸高度敏感——进化让我们擅长识别面部的细微异常（这与社交识别、危险判断有关）。
"恐怖谷"是一个心理现象：

人物真实感 vs 观看者好感度：
好感度
  │
  │     真实人类
  │  ↗          ↘ 恐怖谷
  │ /             ↑
  │/              │   ← 接近真实但不够真实时
  ├───────────────┼──────────────────→ 真实感
  卡通角色    高度拟真角色

游戏中的高度拟真角色脸，常常因为细微的不自然（眼神、皮肤微表情、光照错误）而让玩家感到"不舒服"。

7.2 RTX Neural Faces 的方案

传统方案：用更多三角形、更精细的着色器来暴力堆质量，渲染时间是游戏实时渲染的数个数量级之多。
Neural Faces 的方案：生成式 AI 推理。

这个方案的精妙之处：

实时输入只是一个粗糙的光栅化面部（便宜）
AI 模型根据 3D 姿态，"推理"出这个角度/光照/表情下，面部真正应该长什么样
AI 模型的"先验知识"来自离线训练的数千张高质量图像，可以用真实照片也可以用 AI 生成图像训练

7.3 训练到推理的完整流程

[离线阶段]（只需做一次，可以提前完成）
真实照片 或 AI生成图像
        ↓
扩散模型（Diffusion Model）生成各种变体
（不同光照、角度、表情、遮挡情况）
        ↓
数千张高质量面部图像数据集
        ↓
训练生成式 AI 模型（学会"什么是好看的脸"）
        ↓
TensorRT 优化（压缩模型，提升推理速度）
[实时阶段]（游戏运行时，每帧执行）
当前帧：游戏引擎光栅化出粗糙面部 + 3D 姿态数据
        ↓
送入 TensorRT 优化的 AI 模型
        ↓
Tensor Core 快速推理
        ↓
输出：高质量逼真面部

八、所有神经着色器技术总览

九、各技术关键数字

技术	关键指标	数值
NTC vs 标准材质	显存节省	3x（333 MB vs 1110 MB）
NTC vs 块压缩格式	压缩比	最高 7:1
Blackwell 点采样速度	vs Ada	2x（加速 STF）
RTX Skin	历史意义	游戏中首次实时光追次表面散射
Neural Faces 训练数据	图像数量	数千张（各角度/光照/表情）

十、总结：从"写公式"到"训模型"

着色器技术 40 年的演进可以用一句话概括：
$Blackwell\underbrace{\text{固定逻辑}}_{\text{1990s}} \longrightarrow \underbrace{\text{可编程数学公式}}_{\text{2000s-2010s}} \longrightarrow \underbrace{\text{神经网络近似}}_{\text{2025 Blackwell}}$
神经着色器的核心价值在于：很多视觉效果在物理上"正确"的计算方式太慢，但可以训练 AI 学会一个"够好"的近似，在实时渲染的时间预算内完成。
这不是妥协，而是聪明的工程选择——人眼感知不到神经近似与物理精确之间的差距，但两者的计算开销可以相差几个数量级。
Blackwell 通过 Cooperative Vectors API 打开了这扇门，让 Tensor Core 的 AI 算力真正服务于游戏渲染管线的每一个环节。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

用户在命令行上发出了EULAS AGREED=1,表示不接受许可协议（虚拟机没卸载干净）

AtomGit开源社区

SD.Next：AI 图片生成的全能 WebUI

SD.Next是一款支持多平台硬件的AI图片生成WebUI工具，基于Stable Diffusion模型开发，拥有7,124 GitHub星标。它通过自研SDNQ量化引擎和动态卸载技术，显著降低显存占用，支持NVIDIA、AMD、Intel和Apple Silicon等多种硬件。功能涵盖文生图、图生图、视频生成，内置150+OpenCLIP模型和多种打标工具，提供图像校色功能。安装简单，支持15种