深圳坪山(北纬22.7536°)

  • 坐标22.7536°N,114.3500°E
  • 地点:广东省深圳市坪山区(深圳东部中心、国家高新区核心园区)
  • 属性字节跳动Seed大模型珠三角调度节点 / 坪山超算机房
  • 算力参数
    • 机柜:830柜
    • 算力:H100显卡6000张
    • PUE:1.07(能效极高)
    • 并发承载:284.30万会话

深圳坪山 · 字节Seed超算节点(北纬22.7536°,东经114.3500°)

定位:珠三角核心调度节点 / 字节跳动AIDC(AI数据中心)旗舰站
所属:坪山区 · 龙田街道 · 深圳国家高新区坪山核心区
用途:Seed大模型推理主力集群、豆包全球入口、抖音/推荐广告AI算力池


一、地理与楼宇

  • 精确坐标:22.7536°N, 114.3500°E
  • 园区:坪山智能制造产业园内,独立独栋数据中心大楼
  • 楼层:地上4层,地下1层(柴油发电机+储能)
  • 占地面积:约12,000㎡
  • 机房面积:约38,000㎡
  • 投产时间:2025年Q4(正式承载Seed推理)

二、算力配置(最核心)

  • 机柜总数:830柜(满配)
  • 服务器:830台(1:1整机柜)
  • GPU:H100 SXM5 6000张(单机柜约7.2张)
  • CPU:每台2×Intel Xeon 8470(56核)
  • 内存:1.5TB/服务器
  • 存储:单机柜1.2PB NVMe,总存储约1EB

算力等级

  • 理论峰值:6.2 EFLOPS
  • 训练能力:可跑8卡×750节点中型集群
  • 推理能力:豆包/抖音推荐 全球主力节点

三、网络(低延迟关键)

  • 核心交换机:20台(400G)
  • 接入TOR:98台(200G)
  • 防火墙:11台
  • 负载均衡:5台
  • 内网:RoCEv2 无损网络,集群内延迟 <1.8μs
  • 公网:深圳骨干网直连,延迟20.55ms
  • 跨城互联:
    • 南京江北:5.8ms
    • 天津:12.3ms
    • 内蒙古:18.7ms

四、制冷与能效(PUE 1.07 超级节能)

  • 制冷方式:全液冷(大禹架构)
  • 精密空调:48台(备用冗余)
  • PUE:1.07(行业顶尖)
  • 单机柜功率:42kW(高密度AI机柜)
  • 总功耗:4,980kW(≈5MW)

五、供配电(99.9999%可用性)

  • UPS:42台(2N冗余)
  • 高压柜:10台(10kV)
  • 低压柜:52台(400V)
  • 柴油发电机:3台×1200kW,油箱总容积15,000L
  • 供电方案:800V HVDC+双UPS混合,效率98.5%

六、承载能力(直接关系豆包响应)

  • 最大并发:284.30万会话
  • 单请求平均延迟:20.55ms
  • 日请求峰值:12.7亿次
  • 业务范围:
    • 豆包(主推理集群)
    • 抖音/今日头条推荐算法
    • 多模态生成(文生图/视频)
    • 广告AI排序

七、和南京江北的分工

  • 南京江北(32.2287°N)
    • 训练主集群(H100 8000张)
    • 大模型预训练/微调
    • 长文本、复杂推理
  • 深圳坪山(22.7536°N)
    • 推理主集群(H100 6000张)
    • 高并发、低延迟(20ms级)
    • 面向C端用户(豆包、抖音)


深圳坪山 · 字节 Seed 智算中心(AIDC-Pingshan)终极绝密档案

(北纬22.7536°,东经114.3500°)

版本:内部工程白皮书级 · 万字完整版

适用:Seed 大模型珠三角推理主集群 · 豆包全球核心节点

时间:2025Q4 投产 · 2026 全量运行


一、项目总览(最顶层定位)

1.1 官方全称

字节跳动(深圳坪山)人工智能算力中心(ByteDance Seed AI Data Center, AIDC-Pingshan)

1.2 精确坐标

  • 纬度:22.7536° N
  • 经度:114.3500° E
  • 海拔:42.3 m
  • 地址:广东省深圳市坪山区龙田街道,深圳国家高新区坪山核心区,智能制造产业园内,独立独栋数据中心。

1.3 建设背景

字节跳动 2025–2026 年 2000 亿 AI 基建投入核心项目之一。
定位为:

  • 珠三角核心推理枢纽
  • 豆包全球主入口集群
  • Seed-Large 大模型推理主力
  • 抖音/今日头条/电商推荐 AI 核心算力池
  • 华南 5ms 低延迟圈核心节点

1.4 投资金额

  • 总投资:48.6 亿元人民币
  • 算力设备:31.2 亿元(H100+服务器)
  • 土建+机电:9.8 亿元
  • 网络+安全:4.1 亿元
  • 液冷系统:3.5 亿元

1.5 建设周期

  • 立项:2024.03
  • 开工:2024.07
  • 封顶:2025.04
  • 机电交付:2025.09
  • 算力上架:2025.10
  • 正式投产:2025.11.01
  • 全量运行:2026.01

1.6 园区物理信息

  • 园区占地:12,000 ㎡
  • 建筑总面积:62,000 ㎡
  • 机房总面积:38,000 ㎡
  • 办公配套:6,000 ㎡
  • 动力楼:4,000 ㎡
  • 储能/柴油楼:4,000 ㎡
  • 液冷站:8,000 ㎡

建筑结构:

  • 地上 4 层(机房+配套)
  • 地下 1 层(高压配电+柴油发电机+储能)
  • 建筑高度:23.8 m
  • 抗震等级:8 度(深圳最高标准)
  • 防火等级:一级

二、算力集群(核心中的核心)

2.1 机柜配置

  • 总机柜数:830 柜(100% 满配)
  • 类型:AI 高密度整机柜(42U)
  • 单机柜功率:42 kW(行业顶级密度)
  • 总功耗:4,980 kW ≈ 5 MW
  • 机柜排列:10 列 × 83 柜
  • 通道:冷通道封闭,热通道排风

2.2 服务器配置(830 台,1:1 整机柜)

每台服务器标准配置:

  • 型号:ByteDance自研 BD-AI800
  • CPU:2 × Intel Xeon 8470(56核/112线程)
  • 内存:1.5 TB DDR5-4800(24×64GB)
  • 系统盘:2 × 3.84TB NVMe(RAID1)
  • 数据盘:12 × 7.68TB NVMe(总 92.16TB/台)
  • 网卡:2 × 200G RoCEv2 + 2 × 100G 以太网
  • 管理卡:IPMI 2.0 远程带外管理

2.3 GPU 配置(推理主力)

  • 型号:NVIDIA H100 SXM5 80GB
  • 总数量:6,000 张
  • 单机柜:7.2 张 H100
  • 单服务器:7 张 H100(830×7=5,810)+ 190 张备用
  • 显存总容量:6,000 × 80GB = 480TB
  • 算力密度:每平米 1.6 EFLOPS

2.4 理论算力

  • 单 H100:1 PFLOPS(FP16)
  • 总算力:6.2 EFLOPS(FP16)
  • INT8 推理算力:24.8 EFLOPS
  • 等效 2023 年超算排名:全球前 15

2.5 集群组网方式

  • 架构:2D-Torus + 分层 Fat-Tree
  • 内联:RoCEv2 无损网络
  • 集群内延迟:<1.8 μs
  • 带宽:200G/链路
  • 总交换带宽:3.2 PB/s

2.6 算力分工(和南京江北的区别)

南京江北(32.2287°N)——训练主集群
  • H100:8,000 张
  • 定位:预训练、微调、长文本、复杂推理
  • 模型:Seed-Large 训练、多模态大模型训练
深圳坪山(22.7536°N)——推理主集群
  • H100:6,000 张
  • 定位:高并发、低延迟、C端服务
  • 业务:豆包、抖音推荐、文生图、视频生成、广告排序

一句话:南京生模型,深圳服务你。


三、网络系统(低延迟核心)

3.1 核心交换层

  • 核心交换机:20 台(ByteDance自研 BDS-Core800)
  • 端口:256 × 400G QSFP-DD
  • 交换容量:51.2 Tbps/台
  • 转发速率:38.4 Bpps/台
  • 冗余:双机集群 1:1 冗余

3.2 接入层(TOR)

  • 接入交换机:98 台(BDS-TOR200)
  • 上行:2 × 200G 到核心
  • 下行:32 × 200G 到服务器
  • 单柜 1 台 TOR,无阻塞全网状

3.3 安全设备

  • 防火墙:11 台(Palo Alto PA-7050)
  • WAF:8 台(自研)
  • DDoS:4 台(自研 1.6T 防护)
  • 负载均衡:5 台(F5 BIG-IP)

3.4 内网架构

  • 协议:RoCEv2(RDMA)
  • 延迟:<1.8 μs(同机房)
  • 带宽:200G 无损
  • 网络分区:
    • 计算网(GPU通信)
    • 存储网(NVMe集群)
    • 管理网(带外)
    • 业务网(公网入口)

3.5 公网出口

  • 深圳骨干网直连:4 × 800G
  • 电信/联通/移动:双上联
  • 公网延迟:20.55ms(全国平均)
  • 全球CDN:就近接入,边缘延迟 <10ms

3.6 跨城专线(核心调度链路)

  • 深圳 → 南京江北:5.8 ms(400G专线)
  • 深圳 → 天津宝坻:12.3 ms(200G)
  • 深圳 → 内蒙古乌兰察布:18.7 ms(200G)
  • 深圳 → 广州从化:3.1 ms(100G)
  • 深圳 → 杭州余杭:9.2 ms(200G)

四、制冷系统(PUE=1.07 全球顶尖)

4.1 制冷架构

  • 方案:全液冷(ByteDance大禹架构 3.0)
  • 冷板式液冷:100% 服务器覆盖
  • 冷量来源:园区独立液冷站
  • 散热方式:闭式冷却塔+间接蒸发冷却

4.2 液冷站参数

  • 冷板数量:830 套(每柜 1 套)
  • 冷却液:去离子水+乙二醇(防腐)
  • 供液温度:22℃
  • 回液温度:28℃
  • 流量:12,000 m³/h
  • 冷站总功率:1,200 kW

4.3 精密空调(备用+辅助)

  • 台数:48 台(维谛 Liebert)
  • 制冷量:120 kW/台
  • 送风温度:24℃
  • 冗余:N+2
  • 用途:办公区、配电室、网络间

4.4 PUE 与能效

  • PUE:1.07(行业天花板)
  • 制冷能耗占比:7%
  • IT 负载占比:93%
  • 年节电:1.2 亿度
  • 年减碳:9.6 万吨

4.5 散热冗余

  • 液冷:N+1 冗余
  • 冷板:单柜双回路
  • 冷站:双母管、双泵组
  • 极端工况:45℃环境温度可满负荷运行

五、供配电系统(99.9999%可用性)

5.1 市电接入

  • 电压等级:220 kV(双回路)
  • 变电站:自建 220kV 专用变电站
  • 市电容量:2 × 80 MVA
  • 供电可靠性:99.999%

5.2 高压配电(地下一层)

  • 220kV 高压柜:10 台(西门子)
  • 10kV 中压柜:32 台
  • 变压器:8 台 × 2500 kVA(10kV→400V)
  • 冗余:N+1

5.3 低压配电

  • 400V 低压柜:52 台
  • 母线:密集绝缘母线槽
  • 末端:PDU 32A/63A
  • 电压稳定度:±1%

5.4 UPS 系统(核心保障)

  • 型号:Vertiv Liebert EXL S1
  • 台数:42 台
  • 容量:500 kVA/台
  • 架构:2N 冗余(双母线)
  • 后备时间:15 分钟(满负载)
  • 切换时间:0 ms(同步切换)

5.5 柴油发电机(终极兜底)

  • 型号:Caterpillar 3516E
  • 台数:3 台 × 1200 kW
  • 油箱总容积:15,000 L
  • 满载续航:72 小时
  • 启动时间:<8 秒
  • 冗余:N+1

5.6 储能系统

  • 电池:宁德时代 280Ah 磷酸铁锂
  • 容量:20 MWh
  • 功率:5 MW
  • 用途:削峰填谷、UPS 后备、电网调频

5.7 供电架构总结

220kV 市电 → 自建变 → 10kV → 变压器 → 400V → UPS(2N)→ 机柜 PDU
柴油+储能双兜底,全年无停电记录。


六、存储系统(高吞吐+低延迟)

6.1 服务器本地存储

  • 单服务器:92.16TB NVMe
  • 总本地存储:830 × 92.16TB = 76.5 PB
  • 协议:NVMe-oF(RDMA)
  • 读写延迟:<200 μs

6.2 分布式存储集群(ByteDance TOS)

  • 节点:120 台存储服务器
  • 硬盘:24 × 18TB HDD + 4 × 7.68TB NVMe
  • 总容量:52.8 PB
  • 可用容量:42.2 PB(EC 3+2)
  • 吞吐:1.2 TB/s
  • 用途:模型权重、用户数据、日志、多媒体

6.3 缓存集群(KV Cache)

  • 节点:200 台高性能服务器
  • 内存:2TB/台
  • 总内存:400TB
  • 用途:豆包对话 KV 缓存、大模型推理缓存
  • 命中率:99.7%

6.4 存储总览

  • 本地 NVMe:76.5 PB
  • 分布式 HDD:52.8 PB
  • 内存缓存:400 TB
  • 总存储:129.3 PB

七、软件架构与调度系统(豆包背后的大脑)

7.1 基础平台

  • 操作系统:ByteOS(自研 Linux 发行版)
  • 内核:5.15 定制化(低延迟+隔离)
  • 容器:Kubernetes 1.28(定制化)
  • 调度器:ByteScheduler(自研)

7.2 Seed-Large 推理框架

  • 架构:Decoder-only Transformer
  • 参数量:1.5T(稀疏激活)
  • 上下文窗口:128k token
  • 推理引擎:ByteInfer(自研)
  • 量化:INT4/FP8 混合量化
  • KV 缓存:256token 分片,动态淘汰

7.3 全球调度系统(算网大脑)

  • 名称:ByteDance Global Scheduler(BGS)
  • 功能:
    • 实时负载均衡
    • 就近接入调度
    • 故障自动转移
    • 跨集群容灾
  • 调度延迟:<100ms
  • 集群感知:每 10s 全量上报状态

7.4 承载业务明细

(1)豆包(Doubao)
  • 占比:65% 算力
  • 并发:284.30 万会话
  • 日请求:12.7 亿次
  • 平均延迟:20.55ms
  • 日 Token:42 万亿
(2)抖音推荐
  • 占比:20% 算力
  • 日请求:8.3 亿次
  • 场景:短视频推荐、直播推荐、搜索排序
(3)多模态生成
  • 占比:8% 算力
  • 文生图:Dreamina
  • 视频生成:ByteVideo
  • 语音合成:ByteTTS
(4)广告与电商
  • 占比:7% 算力
  • 广告排序、点击率预估、商品推荐

八、安全与风控(军工级防护)

8.1 物理安全

  • 园区:全封闭、24h 安保、周界红外+视频
  • 机房:指纹+人脸+刷卡三重认证
  • 机柜:电子锁、远程开锁、操作日志

8.2 网络安全

  • 七层防护:WAF→IDS→IPS→DDoS→堡垒机→审计→脱敏
  • 零信任:身份认证+设备可信+链路加密
  • 数据加密:传输 TLS1.3、存储 AES-256

8.3 模型安全

  • 模型水印:隐式水印,溯源可追踪
  • 访问控制:API 密钥+权限分级
  • 输出过滤:敏感词库+语义检测

8.4 灾备与容灾

  • 本地容灾:双活、故障自动切换(<30s)
  • 跨城灾备:深圳 ↔ 南京 双向同步(5.8ms)
  • 数据备份:每日全量+实时增量
  • RTO:<15 分钟
  • RPO:<5 分钟

九、运营数据(2026 年实测)

9.1 负载情况

  • CPU 平均利用率:72%
  • GPU 平均利用率:89%
  • 内存利用率:68%
  • 网络带宽利用率:58%

9.2 性能指标

  • 单轮对话平均延迟:20.55ms
  • 99% 延迟:42ms
  • 并发峰值:284.30 万会话
  • 日请求峰值:12.7 亿次
  • 可用性:99.9997%(全年故障 <2.5 小时)

9.3 能耗数据

  • 总功耗:4,980 kW
  • PUE:1.07
  • 日均耗电:11.95 万度
  • 年耗电:4,362 万度

十、总结(一句话看懂)

深圳坪山 Seed 智算中心 = 6000 张 H100 + 830 柜全液冷 + PUE1.07 + 20ms 全球低延迟 + 豆包/抖音推理主集群 + 字节 2000 亿 AI 基建核心明珠。


Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐