NVIDIA RTX BLACKWELL GPU ARCHITECTURE (2025) 学习: NVIDIA RTX Blackwell 神经渲染架构
代表显卡 RTX 5090
一、架构演进背景:从光栅化到神经渲染
1.1 GPU 架构历代演进
1.2 什么是"神经渲染"?
传统渲染:GPU 对每一个像素进行物理计算,逐像素渲染。
神经渲染:用 AI 模型生成、预测、补全像素,大量像素不再需要完整计算,而是由 AI 以极低的代价"推理"出来。
用一个比喻理解:
传统方式是每道题都自己算;神经渲染是做了几道题之后,让 AI 根据规律"猜"出剩下的答案——而且猜得非常准。
关键指标的提升趋势(如文中 Figure 2 所示):
图像质量提升速度>摩尔定律预测的硬件性能提升速度\text{图像质量提升速度} > \text{摩尔定律预测的硬件性能提升速度}图像质量提升速度>摩尔定律预测的硬件性能提升速度
这意味着 AI 渲染带来的质量提升,已经超越了纯靠堆硬件所能达到的极限。
二、GB202 GPU 基本结构
2.1 芯片层级结构(从大到小)
GB202 完整芯片
│
├── 12 个 GPC(图形处理集群)
│ ├── 每个 GPC 包含:
│ │ ├── 1 个 Raster Engine(光栅化引擎)
│ │ ├── 2 个 ROP 分区(每分区 8 个 ROP 单元,共 16 个)
│ │ └── 8 个 TPC(纹理处理集群)
│ │ ├── 1 个 PolyMorph Engine(多边形变形引擎)
│ │ └── 2 个 SM(流式多处理器)
│
├── 总计:96 个 TPC,192 个 SM
├── 512 位内存接口(16 个 32 位内存控制器)
└── 128 MB L2 缓存(RTX 5090 实际配置 96 MB)
2.2 完整芯片核心数量汇总
| 单元类型 | 数量 | 说明 |
|---|---|---|
| CUDA Cores | 24576 | 通用并行计算核心 |
| RT Cores | 192 | 光线追踪专用硬件(第四代) |
| Tensor Cores | 768 | AI 矩阵运算专用(第五代) |
| Texture Units | 768 | 纹理采样单元 |
| FP64 Cores | 384 | 双精度浮点,每 SM 2 个,保证程序正确性 |
注意:FP64 的算力只有 FP32 的 164\frac{1}{64}641,仅用于保证含 FP64 代码的程序能正确运行,不是性能核心。
2.3 三代旗舰 GPU 规格横向对比
| 规格项目 | RTX 3090 (Ampere) | RTX 4090 (Ada) | RTX 5090 (Blackwell) |
|---|---|---|---|
| GPU 代号 | GA102 | AD102 | GB202 |
| SM 数量 | 82 | 128 | 170 |
| CUDA 核心总数 | 10496 | 16384 | 21760 |
| Tensor Cores | 328(三代) | 512(四代) | 680(五代) |
| RT Cores | 82(二代) | 128(三代) | 170(四代) |
| RT 算力 (TFLOPS) | 69.5 | 191 | 317.5 |
| 显存 | 24 GB GDDR6X | 24 GB GDDR6X | 32 GB GDDR7 |
| 内存接口位宽 | 384-bit | 384-bit | 512-bit |
| 内存速率 | 19.5 Gbps | 21 Gbps | 28 Gbps |
| 内存带宽 | 936 GB/s | 1008 GB/s | 1792 GB/s |
| 纹理单元数 | 328 | 512 | 680 |
| 纹素填充率 | 555.96 GT/s | 1290.2 GT/s | 1636.76 GT/s |
| L2 缓存 | 6144 KB | 73728 KB | 98304 KB |
| 总功耗 TGP | 350 W | 450 W | 575 W |
| PCIe 接口 | Gen 4 | Gen 4 | Gen 5 |
| 制造工艺 | Samsung 8nm | TSMC 4nm | TSMC 4nm |
三、SM(流式多处理器)架构
3.1 每个 SM 的组成
每个 Blackwell SM 包含:
| 组件 | 数量/大小 | 作用 |
|---|---|---|
| CUDA Cores | 128 个 | 通用浮点/整数计算 |
| RT Core | 1 个(第四代) | BVH 遍历 + 射线求交 |
| Tensor Cores | 4 个(第五代) | AI 矩阵运算 |
| Texture Units | 4 个 | 纹理采样 |
| Register File | 256 KB | 每个线程的寄存器 |
| L1/Shared Memory | 128 KB | 可配置的快速本地内存 |
3.2 Ada vs Blackwell SM 关键变化:INT32 统一
Ada 架构中,FP32 核心和 INT32 核心是分离的。
Blackwell 将 INT32 核心与 FP32 核心完全统一:
Ada SM:
┌──────────────┐ ┌─────────────┐
│ FP32 Cores │ │ INT32 Cores │ ← 两套独立硬件
└──────────────┘ └─────────────┘
Blackwell SM:
┌────────────────────────────────┐
│ 统一核心(FP32 或 INT32) │ ← 每个周期选一种模式
└────────────────────────────────┘
效果:许多整数指令的吞吐量提升到 2 倍。但注意:每个时钟周期只能选择一种模式(FP32 或 INT32),不能同时跑两种。
3.3 Ada vs Blackwell SM 设计目标的根本差异
- Ada SM:针对标准着色器(Standard Shaders)优化设计
- Blackwell SM:针对神经着色器(Neural Shaders)优化设计
这是架构设计哲学的转变:从"算每个像素"转向"用 AI 推理像素"。
四、GDDR7 内存子系统
4.1 信号编码技术:PAM4 → PAM3
这是 GDDR6X 到 GDDR7 的核心技术变化,需要从头理解。
PAM(脉冲幅度调制) 是一种在导线上传输数据的方法,通过不同的电压幅度来表示不同的值:
PAM4(GDDR6X 使用):
4 个电压级别 → 每个周期传输 log₂(4) = 2 bit
电压: ─── 高高 ─── 高低 ─── 低高 ─── 低低
值: 11 10 01 00
PAM3(GDDR7 使用):
3 个电压级别 → 每个周期传输 log₂(3) ≈ 1.585 bit
但配合创新的引脚编码方案,实际等效 1.5 bit/周期
电压: ─── 高 ─── 中 ─── 低
值: +1 0 -1
PAM3 的优势:3 个电压级别比 4 个更容易区分,信噪比(SNR)更高,更不容易出错,因此可以跑得更快、更稳。
每 bit 能量效率的对比:PAM3 的电压间隔更大,抗干扰能力强,这是 GDDR7 能达到 28 Gbps(RTX 5090)乃至 30 Gbps(RTX 5080)的根本原因。
4.2 内存带宽计算
RTX 5090 的峰值内存带宽:
内存带宽=内存速率×接口位宽8\text{内存带宽} = \text{内存速率} \times \frac{\text{接口位宽}}{8}内存带宽=内存速率×8接口位宽
=28 Gbps×512 bit8=28×64=1792 GB/s= 28\ \text{Gbps} \times \frac{512\ \text{bit}}{8} = 28 \times 64 = 1792\ \text{GB/s}=28 Gbps×8512 bit=28×64=1792 GB/s
与 RTX 4090 的 1008 GB/s 相比,提升了约 78%。
4.3 ECC 错误纠正
GDDR7 内置 ECC(错误纠正码)在 DRAM 芯片内部:
- 支持单比特错误纠正(SEC)
- 永久开启,无性能损失
- 无需软件开关控制
- 同时支持 EDR(错误检测与重传) 技术
五、第五代 Tensor Core 与 FP4 支持
5.1 Tensor Core 的作用
Tensor Core 是专门做矩阵乘累加(Matrix Multiply-Accumulate,MMA) 运算的硬件。AI 推理和训练的核心计算就是大量矩阵乘法。
普通 CUDA Core 做矩阵乘法(A×B=C):
→ 一次做一个乘法,串行或少量并行
Tensor Core 做矩阵乘法:
→ 一次做整块矩阵的乘加,吞吐量高出数十倍
5.2 浮点精度格式演进
| 格式 | 位数 | 内存占用 | 精度 | 适用场景 |
|---|---|---|---|---|
| FP32 | 32 bit | 4 字节 | 最高 | 标准训练 |
| FP16 | 16 bit | 2 字节 | 高 | 大多数模型默认 |
| BF16 | 16 bit | 2 字节 | 高(动态范围更大) | 训练 |
| TF32 | 19 bit | - | 中高 | Tensor Core 训练加速 |
| FP8 | 8 bit | 1 字节 | 中 | 推理加速 |
| FP6 | 6 bit | 0.75 字节 | 较低 | Blackwell 新增 |
| FP4 | 4 bit | 0.5 字节 | 低(量化补偿) | Blackwell 新增,极限压缩 |
5.3 FP4 的意义:让大模型跑在消费级 GPU 上
以 Black Forest Labs 的 FLUX.dev 模型为例:
| 精度 | 所需显存 | 可运行的 GPU |
|---|---|---|
| FP16(默认) | >23 GB | 仅 RTX 4090 / RTX 5090 / 专业卡 |
| FP4 | <10 GB | 更多 RTX 系列均可运行 |
生成速度对比(30步图像生成):
RTX 4090 FP16:15 秒→换用 5090 + FP4RTX 5090 FP4:≈5 秒\text{RTX 4090 FP16:} 15\ \text{秒} \quad \xrightarrow{\text{换用 5090 + FP4}} \quad \text{RTX 5090 FP4:} \approx 5\ \text{秒}RTX 4090 FP16:15 秒换用 5090 + FP4RTX 5090 FP4:≈5 秒
速度提升约 3 倍,同时显存需求降低 超过一半。
FP4 的核心思路类似文件压缩——用更少的位数存储数值,损失极小精度,换取巨大的效率提升。配合 NVIDIA TensorRT Model Optimizer 的高级量化算法,质量损失几乎不可察觉。
六、第四代 RT Core 与光线追踪
6.1 BVH(包围体层次结构)基础
光线追踪的核心问题是:一条光线(Ray)会不会和场景中的哪个三角形相交?
暴力做法是每条光线和每个三角形都测试一遍,但场景有几百万个三角形,这太慢了。
BVH 用一棵树来组织场景几何体:
测试一条光线时,从根节点往下走:若光线不与某节点的包围盒相交,则整棵子树都跳过。这样大多数三角形都无需测试,效率极高。
RT Core 专门用硬件加速两个操作:
- BVH 遍历(沿树向下搜索)
- 射线-三角形求交测试(Ray-Triangle Intersection)
第四代 RT Core 相比第三代(Ada),射线-三角形求交速度提升 2 倍。
6.2 Mega Geometry:解决 Nanite 与光线追踪的兼容难题
问题背景
虚幻引擎 5 的 Nanite 系统用**集群(Cluster)**来管理 LOD(细节层次):
- 场景中的物体被切割成约 128 个三角形一组的"集群"
- 随着摄像机远近,动态替换不同精度的集群
- 每帧可能有数以千计的集群更换
问题:光线追踪需要 BVH,而 BVH 必须提前构建。每帧大量集群变动 → 需要重建大量 BVH → 现有实现撑不住。
Mega Geometry 的解决方案:CLAS
CLAS(Cluster-Level Acceleration Structure,集群级加速结构):
传统 BVH 构建(以三角形为单位):
100万个三角形 → 构建100万个单元的 BVH → 极慢
CLAS 方案(以集群为单位):
100万个三角形 / 每集群约100个三角形 = 约1万个集群
→ 构建1万个单元的 BVH → 快了约 100 倍!
处理量减少了:
BVH 处理量减少≈三角形数每集群三角形数≈1100\text{BVH 处理量减少} \approx \frac{\text{三角形数}}{\text{每集群三角形数}} \approx \frac{1}{100}BVH 处理量减少≈每集群三角形数三角形数≈1001
即减少了两个数量级。
集群缓存机制:CLAS 在物体从磁盘加载时生成,之后缓存复用,不必每帧重新生成。
问题二:大规模场景的 TLAS 重建
TLAS(Top-Level Acceleration Structure,顶层加速结构)把整个场景的所有物体组织在一起。
问题:场景物体数量从几千增长到数十万时,每帧重建整个 TLAS 代价极大。
解决方案:PTLAS(Partitioned TLAS,分区顶层加速结构)
静态物体所在分区不需要每帧重建,只更新真正发生变化的分区,大幅降低 CPU 开销,整个 BVH 管理几乎可以完全在 GPU 上完成。
Mega Geometry 的扩展应用:细分曲面
细分曲面(Subdivision Surfaces)是电影渲染中常用的技术——用低多边形网格,经过迭代细分(如 Catmull-Clark 算法)得到光滑高精度表面。
以前问题:每帧动画需要重新细分 → 重新建 BVH → 太慢。
Mega Geometry 方案:细分过程直接生成 CLAS,再极速构建 BVH,实现前所未有的实时性能。
Mega Geometry 支持范围
- API 支持:DirectX 12 (DXR via NVAPI)、Vulkan(厂商扩展)、OptiX 9.0
- GPU 支持:从 Turing 架构起的所有 RTX GPU(Blackwell 有专用硬件加速)
- 显存优化:Blackwell 的 CLAS 压缩方案可减少典型场景(如 Nanite 场景)数百 MB 的显存占用
6.3 Linear Swept Spheres(LSS):毛发/草地的硬件加速
旧方案的问题
渲染头发、毛皮、草地等细丝状几何体,传统方案对比:
| 方案 | 质量 | 性能 | 显存 | 问题 |
|---|---|---|---|---|
| 贴图面片(Cards) | 低 | 快 | 低 | 画质差 |
| DOTS(三角条带) | 中 | 中 | 高 | 边缘锯齿瑕疵 |
| LSS(线性扫球) | 高 | 快 | 低 | Blackwell 新增,硬件加速 |
LSS 的原理
用"球沿线段扫过的体积"来近似每一根头发丝:
一根头发 = 一个球从点A沿直线移动到点B所扫过的形状
(起点和终点的球半径可以不同,模拟锥形发丝)
特殊情况:单个球(无线段),可用于粒子系统
LSS 与 DOTS 相比:
- 速度快约 2 倍
- 显存占用减少约 5 倍
- 没有边缘锯齿瑕疵
七、Shader Execution Reordering(SER)2.0
7.1 为什么需要 SER?
GPU 把着色器线程分组成 Warp(线束),每组 32 个线程同时执行相同的指令(SIMD 模式)。
问题:光线追踪中,不同光线命中了不同的材质,需要执行不同的着色器代码:
Warp 里的 32 条光线:
线程0-7:命中金属材质 → 执行金属着色器
线程8-15:命中玻璃材质 → 执行玻璃着色器
线程16-23:命中皮肤材质 → 执行皮肤着色器
线程24-31:没有命中 → 空转等待
结果:同一时刻 32 个线程只有部分在工作,其余等待
这叫"执行发散"(Divergence),效率极低
7.2 SER 的解决思路
SER 在运行时动态重新排列线程,把执行相同着色器的线程归到一起:
SER 重排后:
Warp A 的 32 个线程:全部执行金属着色器(满载)
Warp B 的 32 个线程:全部执行玻璃着色器(满载)
Warp C 的 32 个线程:全部执行皮肤着色器(满载)
7.3 Blackwell SER 2.0 的改进
- 核心重排逻辑效率提升 2 倍,重排开销更低
- 更高精度的线程组合,提取更好的线程一致性
- 新增对神经着色器的优化:需要调用 Tensor Core 的线程,可直接被发送到 Tensor Core
- 现有利用了 SER 的游戏和渲染软件无需修改代码即可直接受益
八、AI Management Processor(AMP)
8.1 传统 GPU 调度的瓶颈
传统架构中,GPU 上下文(Context)的调度由 CPU 负责:
传统流程:
CPU:我有新的渲染任务! → 发给 GPU
GPU:好的,处理中……
GPU:处理完了! → 通知 CPU
CPU:收到,准备下一批任务…… → 再发给 GPU
问题:CPU ↔ GPU 频繁来回通信,有延迟
8.2 AMP 的工作原理
AMP 是位于 GPU 流水线前端的一个专用 RISC-V 处理器,接管 CPU 对 GPU 任务的调度职责:
AMP 与微软 HAGS(硬件加速 GPU 调度) 架构兼容,自 Windows 10 2020 年 5 月更新起支持。
8.3 AMP 的实际效果
- 对 LLM/AI 推理:减少"首次响应时间"(Time to First Token)
- 对游戏:消除 CPU 调度延迟引起的帧率抖动
- 对多任务:允许 AI 工作负载(如语音识别、动画模型)和游戏渲染公平共享 GPU 资源
九、视频编解码新特性
9.1 4:2:2 色彩子采样支持
之前章节介绍过色彩子采样原理。Blackwell 首次支持 4:2:2 的硬件编解码(前代 GPU 仅软件支持)。
三种格式的数据量对比(以 4:4:4 未压缩为基准 111):
4:4:4 数据量=1\text{4:4:4 数据量} = 14:4:4 数据量=1
4:2:2 数据量=23≈0.667\text{4:2:2 数据量} = \frac{2}{3} \approx 0.6674:2:2 数据量=32≈0.667
4:2:0 数据量=12=0.5\text{4:2:0 数据量} = \frac{1}{2} = 0.54:2:0 数据量=21=0.5
| 格式 | 相对数据量 | 色度信息保留 | 典型用途 |
|---|---|---|---|
| 4:4:4 | 100% | 全部 | 专业后期,VFX 合成 |
| 4:2:2 | 67% | 横向减半(50%) | 专业摄像机录制,色彩校正 |
| 4:2:0 | 50% | 仅 25% | 消费级播放,蓝光,流媒体 |
4:2:2 适合"还在制作中"的视频——色彩校正时需要更多色彩信息,等制作完成再压缩成 4:2:0 分发。
软件解码 4:2:2 对 CPU 负担很重,Blackwell 的硬件支持解决了这个问题。
9.2 第九代 NVENC 编码器
| 改进项目 | 内容 |
|---|---|
| AV1 和 HEVC 编码质量 | BD-BR PSNR 提升 +5% |
| 新增 AV1 UHQ 模式 | 额外再提升 +5%(更慢但更高质量) |
| AV1 自然内容 VMAF | 比 Ada 提升 +10%(UHQ 下 +18%) |
| 新增支持 | 4:2:2 H.264 和 HEVC 编码 |
| 编码器数量 | 最多 3 个(RTX 5090) |
编码速度对比:
RTX 5090 编码速度=RTX 4090×1.5≈RTX 3090×4\text{RTX 5090 编码速度} = \text{RTX 4090} \times 1.5 \approx \text{RTX 3090} \times 4RTX 5090 编码速度=RTX 4090×1.5≈RTX 3090×4
(RTX 3090 只有 1 个编码器,RTX 5090 有 3 个)
BD-BR 是衡量视频编码效率的标准指标:BD-BR PSNR 下降意味着相同质量所需的码率更低(即更高效)。文中是"rate savings over Ada",即相比 Ada,节省了一定百分比的码率。
9.3 第六代 NVDEC 解码器
- H.264 硬件解码速度提升 2 倍(与 HEVC 和 AV1 的解码速度持平)
- 新增 4:2:2 H.264 和 HEVC 硬件解码支持
9.4 DisplayPort 2.1b
Blackwell 升级到 DisplayPort 2.1b,采用 UHBR 20 模式:
总带宽=20 Gbps/lane×4 lanes=80 Gbps\text{总带宽} = 20\ \text{Gbps/lane} \times 4\ \text{lanes} = 80\ \text{Gbps}总带宽=20 Gbps/lane×4 lanes=80 Gbps
(相比 DP 1.4a 的 32.4 Gbps,提升了约 2.5 倍)
开启 DSC 后支持的最高规格:
| 分辨率 | 最高刷新率 |
|---|---|
| 8K(7680×4320) | 165Hz |
| 4K(3840×2160) | 480Hz |
注意:最高速率模式需要 DP80LL 认证线缆。
十、Max-Q 功耗效率改进(笔记本 GPU 重点)
10.1 电源状态的困境
GPU 在不同工作状态下处于不同的功耗等级:
高性能状态(Active)── 功耗高,切换快
↕ 进入/退出有延迟
低功耗状态(Sleep)── 功耗低,切换慢
越深的省电状态,进入和退出需要的时间越长,导致 GPU 不敢"轻易"进入深度睡眠,错过省电机会。
10.2 三项核心改进
改进1:高级电源门控(Advanced Power Gating)
- 最深睡眠状态进入速度比 Ada 快 10 倍
- 新增多级细粒度门控,可以关闭芯片上任意局部区域的电源
- 首次实现对整个内存时钟树的门控(利用 GDDR7 的快速唤醒特性)
- 新增独立电压轨,GPU 核心和内存系统可以分开供电、分开控制
改进2:加速频率切换(Accelerated Frequency Switching)
这是 10 年来最大的时钟架构重构:
Blackwell 频率响应速度=前代 GPU×1000\text{Blackwell 频率响应速度} = \text{前代 GPU} \times 1000Blackwell 频率响应速度=前代 GPU×1000
以前:整帧渲染过程中,时钟频率基本锁定不变。
Blackwell:时钟频率可以在一帧内根据工作量动态调整——有工作时冲高频,等待 CPU 数据时降频,极大提升能效比。
传统时钟策略:
时间 ───────────────────────────────────────────→
频率 ████████████████████████████████████████████ (固定高频)
工作 |等CPU|工作 |等CPU|工作 (等待时浪费电)
Blackwell:
时间 ───────────────────────────────────────────→
频率 ████░░░░████░░░░████ (等待时降频,工作时冲高)
改进3:低延迟睡眠(Low Latency Sleep)
以运行小型语言模型(SLM)推理为例(Figure 23):
通过三项技术组合(Blackwell 更快的推理 + 更低功耗的过渡状态 + 10x 更快的深度睡眠),整体功耗节省可达 50%。
总省电=活跃期缩短⏟性能更快+过渡期更低功耗⏟电源/电压门控+更多时间处于深睡眠⏟睡眠速度 10x 提升\text{总省电} = \underbrace{\text{活跃期缩短}}_{\text{性能更快}} + \underbrace{\text{过渡期更低功耗}}_{\text{电源/电压门控}} + \underbrace{\text{更多时间处于深睡眠}}_{\text{睡眠速度 10x 提升}}总省电=性能更快
活跃期缩短+电源/电压门控
过渡期更低功耗+睡眠速度 10x 提升
更多时间处于深睡眠
十一、整体架构关系图
十二、关键数字速查
| 指标 | 数值 | 说明 |
|---|---|---|
| SM 数量 (RTX 5090) | 170 | 比 RTX 4090 多 42 个 |
| CUDA 核心总数 | 21760 | 每 SM 128 个 |
| 内存带宽 | 1792 GB/s | GDDR7 512-bit |
| RT 算力 | 317.5 TFLOPS | 约为 RTX 4090 的 1.66x |
| L2 缓存 | 96 MB (5090) | 比 RTX 3090 大 16 倍 |
| FP4 相比 FP16 内存节省 | >50% | 让更多模型跑在更多显卡上 |
| CLAS 降低 BVH 处理量 | ~100 倍 | Mega Geometry 核心收益 |
| LSS vs DOTS 速度提升 | ~2 倍 | 毛发渲染 |
| LSS vs DOTS 显存节省 | ~5 倍 | 毛发渲染 |
| SER 2.0 重排效率 | 2 倍于 Ada SER | 光线追踪线程一致性 |
| 深度睡眠进入速度 | 10 倍于 Ada | 省电性能关键指标 |
| 频率切换响应速度 | 1000 倍于前代 | 动态工作负载适应 |
| NVENC 编码器数量 | 3 个 | RTX 5090,速度约 4090 的 1.5x |
NVIDIA DLSS 4 详细解析
一、DLSS 是什么?从零理解
1.1 核心问题:渲染太贵
游戏画面的生成方式是"光栅化"或"光线追踪"——GPU 对屏幕上的每一个像素进行物理计算。分辨率越高、帧率越高,计算量越大。
比如 4K(3840×2160)@ 60fps,每秒需要计算:
3840×2160×60=497,664,000≈5 亿个像素3840 \times 2160 \times 60 = 497,664,000 \approx 5 \text{ 亿个像素}3840×2160×60=497,664,000≈5 亿个像素
而 4K @ 144fps 则是:
3840×2160×144≈12 亿个像素/秒3840 \times 2160 \times 144 \approx 12 \text{ 亿个像素/秒}3840×2160×144≈12 亿个像素/秒
计算量巨大。DLSS 的核心思路是:不要每个像素都"算"出来,让 AI 把低分辨率的画面"推理"成高分辨率。
1.2 DLSS 的完整名称与定位
DLSS = Deep Learning Super Sampling(深度学习超级采样)
但现在 DLSS 已经是一套技术组合,包含多个子技术:
二、DLSS 版本演进
| 版本 | 年份 | 关键技术 | 主要改进 |
|---|---|---|---|
| DLSS 1 | 2018 | CNN 模型 | 初代,质量一般 |
| DLSS 2 | 2020 | 改进 CNN | 通用化,质量大幅提升 |
| DLSS 3 | 2022 | 帧生成(Ada) | 首次 AI 生成一帧 |
| DLSS 4 | 2025 | 多帧生成 + Transformer | 最多生成3额外帧,模型架构换代 |
三、DLSS 4 多帧生成(Multi Frame Generation,MFG)
3.1 帧生成的基本思路
"帧生成"的意思是:GPU 正常渲染了 1 帧,然后 AI 根据这 1 帧的内容"编造"出额外的帧插在中间,让画面看起来更流畅。
DLSS 3(Ada,单帧生成):
渲染帧 AI生成帧
─────────────────────────────────────────→ 时间
A │ G1 │ B │ G2 │
(真实) │ (AI) │ (真实) │ (AI) │
1 真实帧 → 1 AI帧 → 显示 2 帧(帧率约 2x)
DLSS 4(Blackwell,多帧生成):
渲染帧 AI生成帧
─────────────────────────────────────────→ 时间
A │ G1 │ G2 │ G3 │ B │ G4 │ G5 │ G6 │
(真实) │(AI)│(AI)│(AI)│ (真实) │(AI)│(AI)│(AI)│
1 真实帧 → 3 AI帧 → 显示 4 帧(帧率最高 4x)
3.2 多帧生成的技术挑战与解决方案
生成一帧已经不容易,生成三帧更难。Blackwell 通过以下技术组合实现:
问题一:AI 推理开销太大
DLSS 3 的帧生成 AI 模型需要每帧运行一次,且只能生成一帧。
Blackwell 的新模型:
新模型速度=旧模型×1.4(快 40%)\text{新模型速度} = \text{旧模型} \times 1.4 \quad \text{(快 40\%)}新模型速度=旧模型×1.4(快 40%)
新模型显存占用=旧模型×0.7(少 30%)\text{新模型显存占用} = \text{旧模型} \times 0.7 \quad \text{(少 30\%)}新模型显存占用=旧模型×0.7(少 30%)
而且新模型只运行一次就能生成 1~3 帧,而不是每生成一帧就跑一次模型。
问题二:光流场(Optical Flow Field)计算慢
光流场是什么?理解它需要知道帧生成的原理:
AI 需要知道画面中每个像素"从上一帧到这一帧移动了多少",才能预测下一帧的位置。这个运动信息的集合就叫光流场。
光流场示意(每个像素有一个运动向量):
上一帧 本帧
┌────────────┐ ┌────────────┐
│ [车] │ │ [车] │
│ →→→ │ │ →→→ │
└────────────┘ └────────────┘
光流场(运动向量图):
┌────────────┐
│ →→→→→→→→ │ (车的区域:向右移动了 X 像素)
│ · · · · · │ (背景:静止)
└────────────┘
DLSS 3 用的是专用硬件光流加速器。
DLSS 4 换成了一个轻量 AI 模型来计算光流场,速度更快,且与帧生成 AI 模型协同工作,整体效率更高。
问题三:多帧之间的时序(Frame Pacing)不均匀
DLSS 3 用 CPU 来控制帧的输出时序,CPU 的调度有波动,多帧生成时这个波动会被放大,导致画面不流畅。
Blackwell 的解决方案:Flip Metering(翻帧计时)
把帧的输出时序控制转移到 GPU 的显示引擎来做,精度更高,波动更小。为此 Blackwell 的显示引擎像素处理能力提升了 2 倍,专门支持高分辨率高刷新率下的硬件级帧计时。
3.3 支持 MFG 的 Blackwell 专属硬件
| 硬件 | 作用 |
|---|---|
| 第五代 Tensor Core | 更快执行光流和帧生成的 AI 模型 |
| AMP(AI 管理处理器) | 统筹调度 AI 推理、图形渲染、帧计时三者 |
| 增强版显示引擎 | 硬件 Flip Metering,像素处理能力 2x |
MFG 是 Blackwell 专属功能,不向下兼容旧卡(因为依赖上述硬件)。
四、Transformer 模型:DLSS 神经网络架构的换代
4.1 旧架构:CNN(卷积神经网络)
CNN(Convolutional Neural Network)是 DLSS 从 2020 年用到 2024 年的模型架构。
它的工作方式:
CNN 处理图像的方式(以像素为例):
原始图像
↓
用小窗口(如 3×3)扫描每个局部区域
↓
提取局部特征(边缘、颜色渐变…)
↓
把局部特征逐层"向上汇总"(类似树形结构)
↓
得到高层理解
特点:
- 只看"附近"的像素关系
- 远处的像素关联需要很多层才能建立
- 计算效率高(卷积运算天然并行)
4.2 新架构:Transformer(注意力机制)
Transformer 是近年来 AI 领域最重要的架构革命,ChatGPT 背后也是 Transformer。
它的核心思想是自注意力(Self-Attention):
Transformer 的视野:
分析像素 P 时,可以直接"关注"图像中任意位置的像素
传统 CNN: Transformer:
P 只看身边 3×3 的邻居 P 可以看整张图任何地方
┌───────────────┐ ┌───────────────┐
│ · · · · · · · │ │ ←←← P →→→→→ │
│ · · P · · · · │ │ ↑ P ↓ │
│ · · · · · · · │ │ ←←← →→→→→ │
└───────────────┘ └───────────────┘
视野小,需要多层才能 视野大,一步就能建立
建立远程关联 远程像素间的关联
注意力的含义:模型学会了"看哪里"。对于超分辨率任务,不是每个像素都一样重要——运动中的物体边缘、复杂光照区域需要更多"注意力",Transformer 会自动学会把计算资源集中在最重要的地方。
4.3 CNN vs Transformer 在 DLSS 中的对比
| 特性 | CNN 模型 | Transformer 模型 |
|---|---|---|
| 感受野(视野范围) | 局部,需多层扩展 | 全局,一步到位 |
| 远程像素关联 | 困难 | 容易 |
| 参数规模 | 较小 | DLSS 4 可容纳 2x 更多参数 |
| 时间一致性 | 一般 | 更好(跨帧稳定) |
| 运动中的细节 | 容易模糊 | 更清晰 |
| 鬼影(Ghosting) | 较多 | 明显减少 |
参数量翻倍的意义:神经网络的参数就像它的"知识储量",参数越多,模型对复杂场景的理解能力越强。DLSS 4 Transformer 模型的参数量是 CNN 版本的 2 倍,意味着它可以处理更复杂的光照、更细腻的纹理、更难的运动场景。
五、DLSS 超分辨率(Super Resolution,SR)
5.1 工作原理
SR 的核心任务:用低分辨率输入,重建高分辨率输出。
输入(低分辨率):
┌────────┐
│ 小图 │ 例:1080p(1920×1080)
│ 模糊 │
└────────┘
额外输入:
- 运动向量(每个像素从哪里来)
- 历史帧反馈(前几帧的高分辨率结果)
AI 推理过程:
"结合多帧信息,推断高分辨率下每个像素应该是什么"
输出(高分辨率):
┌────────────────┐
│ 大图 │ 例:4K(3840×2160)
│ 清晰细节 │
└────────────────┘
性能提升逻辑:
实际渲染量=目标分辨率像素数超分辨率倍率2\text{实际渲染量} = \frac{\text{目标分辨率像素数}}{\text{超分辨率倍率}^2}实际渲染量=超分辨率倍率2目标分辨率像素数
例如 4K 输出用 DLSS “质量模式”(约 23\frac{2}{3}32 倍输入):
实际渲染像素=3840×2160×(23)2=3840×2160×49≈1920×1080\text{实际渲染像素} = 3840 \times 2160 \times \left(\frac{2}{3}\right)^2 = 3840 \times 2160 \times \frac{4}{9} \approx 1920 \times 1080实际渲染像素=3840×2160×(32)2=3840×2160×94≈1920×1080
GPU 只需渲染 1080p,AI 重建为 4K,计算量节省约 49×100%≈55.6%\frac{4}{9} \times 100\% \approx 55.6\%94×100%≈55.6%。
5.2 Transformer SR 的改进
Transformer 版本 SR 相比 CNN 版本的具体改进:
- 时间稳定性(Temporal Stability)提升:相邻帧之间不会出现像素"跳动"或闪烁
- 鬼影(Ghosting)减少:快速运动物体后面不再有残影
- 运动中的细节更多:物体移动时不再变模糊
- 抗锯齿改善:斜线和曲线的边缘更平滑
六、DLSS 光线重建(Ray Reconstruction,RR)
6.1 光线追踪的采样困境
光线追踪的质量理论上取决于从每个像素发出多少条光线:
每像素光线数∝噪点减少量∝渲染时间\text{每像素光线数} \propto \text{噪点减少量} \propto \text{渲染时间}每像素光线数∝噪点减少量∝渲染时间
实时游戏中,每像素只能发射极少数光线(通常 1~4 条),结果画面非常嘈杂:
少量采样的光追画面(示意):
真实场景 采样结果(嘈杂)
┌──────────────┐ ┌──────────────┐
│ 均匀柔和阴影 │ → │ · ·· · · │
│ 光滑反射 │ │ · · · ·· │
└──────────────┘ └──────────────┘
传统去噪:手工设计算法(手调降噪器),平均周围像素→模糊
RR: AI 推理"这里应该是什么"→保留细节
6.2 RR 的作用
RR 替换了传统的手调降噪器(Hand-tuned Denoiser)。
传统降噪器的问题:为了消除噪点,会对周围像素做平均,结果是画面变模糊,尤其是阴影边缘、反射细节损失严重。
RR(AI 降噪)的优势:AI 模型在 NVIDIA 超级计算机上训练,见过大量光追场景,能"理解"哪里应该有细节、哪里是真正的噪点,从而填充像素而不是平均像素。
Transformer 版 RR 的提升重点:
- 复杂光照场景(间接照明、焦散、多次反弹光线)质量大幅提升
- 常见降噪瑕疵(闪烁、模糊、结构错误)显著减少
- 文档原话:所有典型降噪器的常见瑕疵都被"显著减少"
七、深度学习抗锯齿(DLAA)
7.1 什么是锯齿?
屏幕是由方形像素组成的,而游戏中有大量斜线和曲线。斜线用方形像素表示时,边缘会出现台阶状的"锯齿":
没有抗锯齿: 有抗锯齿:
■ ■
■■ ▒■
■■ ■▒■
■■ ■■▒
■ ■
(■=完全填充 ▒=半透明混合)
7.2 DLAA vs 传统抗锯齿 vs DLSS SR
| 技术 | 渲染分辨率 | 输出分辨率 | 目的 |
|---|---|---|---|
| MSAA(传统) | 2x~4x 目标 | 目标 | 抗锯齿,消耗巨大 |
| DLSS SR | 低于目标 | 目标 | 性能提升+抗锯齿 |
| DLAA | 等于目标(原生) | 目标 | 纯粹最高质量抗锯齿 |
DLAA 的目标用户:不在乎性能,只要最高画质的玩家。渲染在原生分辨率,然后用与 SR 相同的 Transformer AI 技术做抗锯齿处理,质量比任何传统抗锯齿方案都好。
DLAA 改进:
- 更好的时间稳定性:边缘在运动时不会抖动
- 更多运动细节:快速移动的物体边缘依然清晰
- 更平滑的边缘:斜线和曲线几乎看不出锯齿
八、整体数据流程图
九、关键数字速查
| 指标 | 数值 | 说明 |
|---|---|---|
| MFG 生成帧数 | 最多 3 帧/真实帧 | 理论帧率最高 4x |
| 新帧生成 AI 模型速度 | 旧模型 +40% | Blackwell 专属 |
| 新帧生成 AI 显存占用 | 旧模型 -30% | 更节省显存 |
| Transformer 参数量 | CNN 的 2 倍 | 更强大的 AI |
| 显示引擎像素处理能力 | Ada 的 2 倍 | 支持硬件 Flip Metering |
| SR 节省渲染量(质量模式) | 约 55% | 4K 输出只需渲染 1080p |
十、总结
DLSS 4 的核心进步可以分两个层面理解:
层面一:帧数量的飞跃(MFG)
显示帧率=真实渲染帧率×N(N≤4)\text{显示帧率} = \text{真实渲染帧率} \times N \quad (N \leq 4)显示帧率=真实渲染帧率×N(N≤4)
GPU 真实渲染 30fps,经过 MFG 生成 3 帧,显示器看到的是 120fps。代价是:多帧生成的 AI 帧不如真实渲染帧精确,但对玩家来说流畅度提升是真实的。
层面二:单帧质量的飞跃(Transformer 模型)
从 CNN 切换到 Transformer,相当于给 DLSS 换了一个"更聪明的大脑"——视野从局部扩大到全局,参数量翻倍,理解复杂场景的能力大幅增强,带来的是更稳定的画面、更少的鬼影、更细腻的运动细节。
两者结合:既要帧率高,又要画面好——这是 DLSS 4 的设计目标。
NVIDIA RTX Blackwell 神经着色器 详细解析
一、着色器是什么?从零开始理解
1.1 着色器的本质
“着色器”(Shader)是一段运行在 GPU 上的小程序,专门负责决定屏幕上每个像素"长什么样"。
用最简单的比喻理解:
如果 GPU 是一个巨大的工厂,着色器就是工厂里每条流水线的工艺手册——告诉工人(计算核心)每件产品(像素)该怎么加工。
着色器的核心工作:计算光照、颜色、阴影、反射,最终输出每个像素的颜色值 (R,G,B,A)(R, G, B, A)(R,G,B,A)。
1.2 着色器的发展历程
1.3 每个阶段的关键突破
| 阶段 | 年代 | 核心突破 | 能做什么新事情 |
|---|---|---|---|
| 固定功能 | ~2000前 | 硬连线逻辑 | 基础纹理贴图和光照 |
| 顶点着色器 | 2001 | 可编程顶点变换 | 波浪变形、骨骼动画 |
| 像素着色器 | 2002 | 逐像素可编程 | 动态光照、法线贴图 |
| 几何着色器 | 2006 | 运行时生成三角形 | 粒子系统、草地 |
| 计算着色器 | 2009 | 通用 GPU 计算 | 物理模拟、后处理 |
| 网格着色器 | 2020 | 统一几何管线 | 更高效的高多边形场景 |
| RTX 着色器 | 2018 | 专用光追硬件 | 实时反射、全局照明 |
| 神经着色器 | 2025 | AI 融入着色器 | 神经纹理、神经材质、神经脸 |
二、神经着色器:范式转变
2.1 传统着色器 vs 神经着色器的根本区别
传统着色器:程序员手写数学公式,描述光与材质的物理行为。
例如,经典的 Phong 光照模型:
I=kaIa+kdId(L^⋅N^)+ksIs(R^⋅V^)nI = k_a I_a + k_d I_d (\hat{L} \cdot \hat{N}) + k_s I_s (\hat{R} \cdot \hat{V})^nI=kaIa+kdId(L^⋅N^)+ksIs(R^⋅V^)n
其中 ka,kd,ksk_a, k_d, k_ska,kd,ks 分别是环境光、漫反射、镜面反射系数,L^,N^,R^,V^\hat{L}, \hat{N}, \hat{R}, \hat{V}L^,N^,R^,V^ 分别是光线方向、法线、反射方向、视线方向。
这是一个近似公式,写起来费脑筋,而且复杂材质(如皮肤、丝绸、珍珠)的物理行为根本无法用简单公式描述。
神经着色器:不写公式,而是训练一个神经网络来近似这个函数:
f物理(光照输入)⏟复杂但精确≈fθ(光照输入)⏟神经网络近似,速度快\underbrace{f_{\text{物理}}(\text{光照输入})}_{\text{复杂但精确}} \approx \underbrace{f_{\theta}(\text{光照输入})}_{\text{神经网络近似,速度快}}复杂但精确
f物理(光照输入)≈神经网络近似,速度快
fθ(光照输入)
训练完成后,推理(inference)时用神经网络直接得到结果,比手写数学公式更灵活,能处理更复杂的效果,而且往往更快。
2.2 为什么 Blackwell 才能大规模用神经着色器?
关键技术突破:Cooperative Vectors API
以前,Tensor Core(AI 矩阵运算单元)只能被 CUDA 计算程序调用,普通的图形着色器(像素着色器、光追着色器等)无法访问 Tensor Core。
Blackwell 配合微软新增的 Cooperative Vectors API(支持 DX12 和 Vulkan):
以前:
图形着色器(Pixel Shader, RT Shader)
↓ 只能用 CUDA Cores
无法访问 Tensor Core
Blackwell + Cooperative Vectors:
图形着色器(Pixel Shader, RT Shader, 任意着色器)
↓ 现在可以直接调用
Tensor Core(AI 矩阵运算)
配合 Slang 可微着色语言,开发者可以在普通着色器代码里写神经网络推理,像写普通着色器一样自然。
2.3 神经着色器能做什么?
| 应用 | 解决的问题 | 具体技术 |
|---|---|---|
| 材质渲染 | 复杂多层光学材质实时化 | RTX Neural Materials |
| 纹理存储 | 显存里的纹理太占空间 | RTX Neural Texture Compression |
| 全局光照 | 多次反弹光线太慢 | Neural Radiance Cache |
| 皮肤渲染 | 次表面散射实时化 | RTX Skin |
| 面部渲染 | 突破恐怖谷效应 | RTX Neural Faces |
三、RTX Neural Materials(神经材质)
3.1 问题背景
电影 CGI 中,一件物体的材质可能由多个光学层叠加组成,例如:
人类皮肤的光学层次:
外层油脂膜 → 镜面反射
表皮层 → 散射 + 色素
真皮层 → 次表面散射
皮下脂肪层 → 深层散射
每一层都要单独光线追踪 → 实时渲染代价极高
3.2 神经材质的解决思路
用神经网络近似整个多层材质系统:
传统方案:
输入(光照角度、材质参数)
→ 逐层光线追踪计算
→ 叠加各层结果
→ 输出像素颜色
时间:长(电影渲染级别)
神经材质方案:
训练阶段(离线):
大量光照条件 → 多层光追计算 → 收集结果
→ 训练神经网络拟合这个映射关系
推理阶段(实时):
输入(光照角度、材质参数)
→ 神经网络前向推理(几毫秒)
→ 输出像素颜色
结果:接近电影级别的材质质量,却能以游戏帧率运行。
四、RTX Neural Texture Compression(神经纹理压缩,NTC)
4.1 纹理占用显存的问题
现代游戏的高精度纹理非常占显存。以文中演示为例:
| 方案 | 显存占用 | 视觉质量 |
|---|---|---|
| 标准材质 | 1110 MB | 标准 |
| 神经材质(NTC) | 333 MB | 更高 |
压缩比:
压缩比=1110333≈3.3×\text{压缩比} = \frac{1110}{333} \approx 3.3 \times压缩比=3331110≈3.3×
即只用原来约 13\frac{1}{3}31 的显存,同时画质更好。
与传统块压缩格式(BC7 等)相比,NTC 可提供高达 7:1 的压缩比,而传统块压缩通常只有 4:1~8:1 且质量较差。
4.2 NTC 的原理
传统纹理压缩(如 BC7):把纹理切成固定 4×44\times44×4 像素的块,每块存储一个近似的颜色查找表。简单高效但灵活性差。
神经纹理压缩:训练一个小型神经网络,输入纹理坐标 (u,v)(u, v)(u,v),输出该点的颜色值 (R,G,B,A)(R, G, B, A)(R,G,B,A):
fθ(u,v)≈纹理(u,v)f_\theta(u, v) \approx \text{纹理}(u, v)fθ(u,v)≈纹理(u,v)
神经网络的参数(权重)就是压缩后存储的数据,比原始纹理图像小得多。解压时只需做一次神经网络前向推理,速度很快。
4.3 随机纹理过滤(Stochastic Texture Filtering,STF)
NTC 的一个配套技术。普通纹理采样有三线性过滤、各向异性过滤等硬件加速方案,但 NTC 用神经网络解压时无法直接用这些硬件过滤器。
STF 的思路:在采样时引入随机性:
传统过滤:
采样点周围几个像素 → 加权平均 → 平滑结果
STF:
在采样点附近随机抖动采样位置
→ 多帧累积 → 统计上等价于平滑过滤
→ 消除摩尔纹和锯齿
STF 还能实现高阶过滤(如立方过滤、高斯过滤),效果超过传统硬件过滤器,而代价只是一次额外的点采样。
Blackwell 的点采样速度是 Ada 的 2 倍,专门为 STF + NTC 工作流提速。
五、Neural Radiance Cache(神经辐射缓存,NRC)
5.1 全局光照的困难
“全局光照”(Global Illumination,GI)是指光线在场景中经过多次反弹后照亮各个角落的效果,如:
光源
│
↓ 第1次反弹:打到地板
│
↓ 第2次反弹:从地板反射到墙壁
│
↓ 第3次反弹:从墙壁到天花板
│
↓ 第N次反弹……
│
→ 最终到达摄像机
完整追踪所有反弹代价极高:
计算量∝(每像素光线数)×(反弹次数)\text{计算量} \propto (\text{每像素光线数}) \times (\text{反弹次数})计算量∝(每像素光线数)×(反弹次数)
实时渲染只能负担极少反弹次数,导致间接光照质量差。
5.2 NRC 的工作原理
NRC 是一个在游戏运行时实时训练的小型神经网络,它缓存并近似场景的辐射信息(即"哪个方向来多少光")。
NRC 工作流程:
路径追踪光线
│
第1次反弹后到达某点
│
↓
查询 NRC 神经网络:
"从这个位置、这个方向,
经过更多次反弹后,最终会接收到多少光?"
│
↓
NRC 推理结果:给出近似答案
│
↓
无需继续追踪 → 节省大量计算
同时:
少量完整路径(多次反弹)
│
↓
用来在线训练 NRC,保持准确性
关键特性:NRC 边玩边训练(on-the-fly training),针对当前游戏场景实时优化自己,因此对各种场景都能给出准确的间接光照估计。
5.3 NRC 的收益
- GPU 不再需要追踪完整的多次反弹光线
- 有限的光线预算可以换来更高质量的间接光照
- 自适应训练使其对场景变化(动态光源、玩家移动)保持准确
六、RTX Skin(皮肤渲染)
6.1 皮肤渲染难在哪里?
普通不透明材质(木头、金属)的光照计算相对简单:光线打到表面,根据法线和材质计算反射,完成。
皮肤是半透明材质,光线会穿透进入材质内部,在内部散射传播,从不同位置射出来:
不透明材质(木头):
光线 →→ [表面] ← 只在表面发生反射
半透明材质(皮肤):
光线 →→ [表面] → 进入内部 → 散射 → 从其他位置射出
↑
次表面散射(Subsurface Scattering, SSS)
次表面散射的视觉效果:
- 用手电筒照手指,手指边缘会透出红色的光——这就是 SSS
- 皮肤看起来"柔软"有血色,而不是像塑料一样硬
- 耳廓在强光下半透明
6.2 RTX Skin 的实现
RTX Skin 将电影级别的次表面散射技术带入实时游戏渲染,是游戏中首次实现光线追踪次表面散射。
技术路径:用路径追踪来模拟光线在皮肤各层中的散射路径,由神经着色器进行加速和近似,使其能在实时帧率下运行。
艺术控制:可以从微妙(自然肤色)到强烈(半透明感)自由调节,完全由美术师控制程度。
七、RTX Neural Faces(神经面部渲染)
7.1 恐怖谷效应(Uncanny Valley)
人类从出生起就对人脸高度敏感——进化让我们擅长识别面部的细微异常(这与社交识别、危险判断有关)。
"恐怖谷"是一个心理现象:
人物真实感 vs 观看者好感度:
好感度
│
│ 真实人类
│ ↗ ↘ 恐怖谷
│ / ↑
│/ │ ← 接近真实但不够真实时
├───────────────┼──────────────────→ 真实感
卡通角色 高度拟真角色
游戏中的高度拟真角色脸,常常因为细微的不自然(眼神、皮肤微表情、光照错误)而让玩家感到"不舒服"。
7.2 RTX Neural Faces 的方案
传统方案:用更多三角形、更精细的着色器来暴力堆质量,渲染时间是游戏实时渲染的数个数量级之多。
Neural Faces 的方案:生成式 AI 推理。
这个方案的精妙之处:
- 实时输入只是一个粗糙的光栅化面部(便宜)
- AI 模型根据 3D 姿态,"推理"出这个角度/光照/表情下,面部真正应该长什么样
- AI 模型的"先验知识"来自离线训练的数千张高质量图像,可以用真实照片也可以用 AI 生成图像训练
7.3 训练到推理的完整流程
[离线阶段](只需做一次,可以提前完成)
真实照片 或 AI生成图像
↓
扩散模型(Diffusion Model)生成各种变体
(不同光照、角度、表情、遮挡情况)
↓
数千张高质量面部图像数据集
↓
训练生成式 AI 模型(学会"什么是好看的脸")
↓
TensorRT 优化(压缩模型,提升推理速度)
[实时阶段](游戏运行时,每帧执行)
当前帧:游戏引擎光栅化出粗糙面部 + 3D 姿态数据
↓
送入 TensorRT 优化的 AI 模型
↓
Tensor Core 快速推理
↓
输出:高质量逼真面部
八、所有神经着色器技术总览
九、各技术关键数字
| 技术 | 关键指标 | 数值 |
|---|---|---|
| NTC vs 标准材质 | 显存节省 | 3x(333 MB vs 1110 MB) |
| NTC vs 块压缩格式 | 压缩比 | 最高 7:1 |
| Blackwell 点采样速度 | vs Ada | 2x(加速 STF) |
| RTX Skin | 历史意义 | 游戏中首次实时光追次表面散射 |
| Neural Faces 训练数据 | 图像数量 | 数千张(各角度/光照/表情) |
十、总结:从"写公式"到"训模型"
着色器技术 40 年的演进可以用一句话概括:
固定逻辑⏟1990s⟶可编程数学公式⏟2000s-2010s⟶神经网络近似⏟2025 Blackwell\underbrace{\text{固定逻辑}}_{\text{1990s}} \longrightarrow \underbrace{\text{可编程数学公式}}_{\text{2000s-2010s}} \longrightarrow \underbrace{\text{神经网络近似}}_{\text{2025 Blackwell}}1990s
固定逻辑⟶2000s-2010s
可编程数学公式⟶2025 Blackwell
神经网络近似
神经着色器的核心价值在于:很多视觉效果在物理上"正确"的计算方式太慢,但可以训练 AI 学会一个"够好"的近似,在实时渲染的时间预算内完成。
这不是妥协,而是聪明的工程选择——人眼感知不到神经近似与物理精确之间的差距,但两者的计算开销可以相差几个数量级。
Blackwell 通过 Cooperative Vectors API 打开了这扇门,让 Tensor Core 的 AI 算力真正服务于游戏渲染管线的每一个环节。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐


所有评论(0)