RTX 4090 Ti vs A100 规格对比表

数据来源https://hmc-tech.com/

一、基础核心参数

参数项 RTX 4090 Ti NVIDIA A100
架构 Ada Lovelace(阿达洛夫莱斯) Ampere(安培)
定位 消费级桌面显卡 服务器AI加速卡
制程 TSMC 4N TSMC 7N
核心代号 NV182 / AD102-200-A1 NV170
发布时间 - 2021-06-28
核心面积 608mm² 826mm²
晶体管数量 763亿 542亿
晶体管密度 125.4 MTr/mm² 65.62 MTr/mm²
流处理器 18432 个 6912 个
SM单元 144 个 108 个
张量核心 576 个 432 个
光追核心 144 个
TMU纹理单元 576 个 432 个
ROP光栅单元 176 个 160 个

二、频率与缓存

参数项 RTX 4090 Ti NVIDIA A100
基础频率 2.35 GHz 765 MHz
加速频率 2.63 GHz 1.41 GHz
L1缓存 64KB/SM(纹理) 64KB/SM(纹理)
二级缓存 96MB 共享 40MB 共享

三、显存规格

参数项 RTX 4090 Ti NVIDIA A100
显存类型 GDDR6X HBM2e
显存容量 48GB 80GB
位宽 384-bit 5120-bit
等效频率 21GT/s 3GT/s
显存带宽 1.01 TB/s 1.94 TB/s
ECC纠错 不支持 不支持

四、理论算力(峰值)

算力类型 RTX 4090 Ti NVIDIA A100
FP32 单精度 96.77 TFLOPS 19.49 TFLOPS
FP64 双精度 1.51 TFLOPS 9.75 TFLOPS
TF32 96.77 TFLOPS 155.9 TFLOPS
BF16 96.77 TFLOPS 38.98 TFLOPS
BF16(稀疏) 387.1 TFLOPS 623.7 TFLOPS
FP8-16 774.1 TFLOPS 311.9 TFLOPS
FP8-16(稀疏) 1.55 PFLOPS 623.7 TFLOPS
INT8 774.1 TOPS 623.7 TOPS
INT4(稀疏) 3.1 POPS 2.5 POPS
光追算力 223.7 TOPS
像素填充率 462 GPixel/s 225.6 GPixel/s
纹理填充率 1.51 TTexel/s 609.1 GTexel/s

五、功耗、供电与形态

参数项 RTX 4090 Ti NVIDIA A100
TDP功耗 600W 250W
供电接口 1×16Pin 12VHPWR 1×8Pin EPS
物理规格 3槽位 2槽位
尺寸(高×宽×深) 137mm × 304mm × 61mm 111mm × 267mm × 40mm
散热方式 风冷(双风扇) 被动散热
最高温度 90℃ 无标注
总线接口 PCIe 4.0 x16 PCIe 4.0 x16
多卡互联 不支持 支持NVLink

六、视频输出与编码解码

参数项 RTX 4090 Ti NVIDIA A100
视频接口 3×DP 1.4 + 1×HDMI 2.1 无视频输出
最大分辨率 8K(7680×4320)@60Hz -
多屏输出 4屏 -
同步技术 G-Sync/FreeSync -
DSC压缩 支持 不支持
HDCP 2.3 -
NVENC编码器 2代 NVENC 8(支持H.264/H.265/AV1) 无编码单元
NVDEC解码器 NVDEC 5 5×NVDEC 4
支持解码格式 MPEG1/2/4、VC-1、VP8/9、H.264/H.265/AV1 MPEG1/2/4、VC-1、VP8/9、H.264/H.265

七、软件&API支持

参数项 RTX 4090 Ti NVIDIA A100
CUDA版本 8.9 8.0
Shader Model 6.6 -
DirectX DirectX 12 / D3D 12_3 -
OpenGL 4.6 -
OpenCL 3.0 3.0
Vulkan 1.3 1.2
硬解引擎 PureVideo HD VP12、VDPAU L PureVideo HD VP10、VDPAU J

核心总结

  1. 游戏/通用浮点:RTX 4090 Ti 大幅领先,FP32、INT4/INT8、光追、视频编解码能力更强,面向桌面娱乐、实时推理、图形渲染。
  2. 科学计算/高精度AI:A100 优势明显,FP64双精度、HBM2e大显存+超高带宽更强,适合模型训练、超算、大规模AI集群。
  3. 功耗形态:4090 Ti 功耗高达600W、体积更大;A100 仅250W,被动散热,适配服务器机房。
  4. 生态定位:4090 Ti 是消费级卡,视频输出、游戏API齐全;A100 纯计算卡,无视频接口,主打数据中心场景。
Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐