DeepSeek 虚拟硬件层：从抽象到极致效率

junecauzhang

370人浏览 · 2026-05-30 19:23:45

junecauzhang · 2026-05-30 19:23:45 发布

DeepSeek 虚拟硬件层：从抽象到极致效率

摘要

随着大语言模型参数规模迈向万亿级别，混合专家（Mixture-of-Experts, MoE）架构成为平衡模型能力与计算成本的关键路径。然而，MoE 特有的全对全（all-to-all）通信模式、海量专家的跨节点调度与精细的流水线并行，使底层异构硬件资源的复杂性空前放大。DeepSeek 通过构建一套完整的虚拟硬件层（Virtual Hardware Layer），将 NVLink 域内高速互联、InfiniBand 跨节点通信、GPU 计算单元与显存抽象为统一的逻辑资源池，为上层的 DualPipe 流水线、专家并行和 FP8 混合精度训练提供了硬件无感的运行环境。本文对 DeepSeek 虚拟硬件层的设计哲学、架构组件（通信虚拟化、计算流水线虚拟化、内存/专家虚拟化）、核心实现（DeepEP 通信库、HAI-LLM 框架）以及在训练与推理场景中的极致效率表现进行了深度剖析。研究表明，该虚拟硬件层使得在 2048 块 NVIDIA H800 GPU 上训练 DeepSeek-V3 时，实现每万亿 token 仅需 180k H800 GPU 小时，模型算力利用率（MFU）高达 51%，通信计算重叠率接近 100%，为大规模 MoE 基础设施树立了新的效率标杆。

1. 引言

1.1 DeepSeek 系列模型的演进

深度求索（DeepSeek）自 2023 年推出首代模型以来，迅速迭代至 DeepSeek-V2、V3 及推理增强版 DeepSeek-R1，参数总量最高达到 671B，其中每个 token 激活的参数仅 37B，采用细粒度混合专家架构。DeepSeek-V2 率先提出 DeepSeekMoE，引入共享专家与细粒度路由专家的双层结构；DeepSeek-V3 在此基础上进一步实现了无辅助损失（auxiliary-loss-free）的负载均衡策略，并首次在如此大规模模型上全程采用 FP8 混合精度训练。DeepSeek-R1 则通过强化学习赋能推理能力，且整套推理系统同样构建于同一套虚拟化基础设施之上。这一系列模型不仅在多个 benchmark 上比肩甚至超越 GPT-4 等闭源巨头，其训练成本之低更震惊业界，背后正是其对基础设施的激进重构，尤其是虚拟硬件层的系统级创新。

1.2 大规模 MoE 面临的基础设施困境

MoE 的训练和推理要求频繁的专家分发（dispatch）与汇聚（combine）操作，其通信模式为全局全对全，数据流在数百乃至数千块 GPU 之间按 token 级别动态穿梭。传统分布式训练框架（如 Megatron-LM 的专家并行方案，或 DeepSpeed-MoE）通常将通信和计算分时进行，NVLink 与 RDMA 网卡（如 InfiniBand）也被视为独立信道，导致三个层面的浪费：第一，通信拓扑与负载不匹配，NVLink 高带宽低延迟但只限于单节点 8 卡内，IB 跨节点带宽相对不足且延迟高，两者割裂导致网络资源无法池化调度；第二，计算-通信流水线气泡，传统 1F1B（one-forward-one-backward）流水线在跨节点场景下气泡率严重，计算与通信无法充分重叠；第三，内存与专家映射僵化，专家的静态放置和缺少虚拟内存抽象使负载不均时 GPU 显存浪费严重，动态冗余需要昂贵的全量参数拷贝。

这些困境的根源在于：上层模型逻辑与物理硬件拓扑紧密耦合，任何硬件异构性（H800 的 NVSwitch 拓扑、NUMA 亲和性、IB 网卡 PCIe 带宽竞争）都会直接影响模型执行的效率与稳定性。因此，构建一个屏蔽物理差异、提供统一可编程接口的“虚拟硬件层”成为破局关键。

1.3 虚拟硬件层概念的提出

DeepSeek 在其技术报告与开源组件中并未专门用“虚拟硬件层”这一术语来概括全部设计，但其一系列底层创新——包括 DeepEP 通信库中明确的 “virtual hardware mapping” 概念、DualPipe 算法的虚拟时序调度、以及 HAI-LLM 框架中硬件感知的算子编排——共同构成了一套事实上的虚拟硬件层。该层对上暴露逻辑设备、逻辑通道与虚拟时间片，对下精细管理 NVSwitch 端口、RDMA 队列对（QP）、SM（流多处理器）簇与显存物理页。本文将其统一抽象为“DeepSeek 虚拟硬件层”，并对此展开深入剖析。

2. 设计哲学与总体架构

2.1 虚拟硬件层的核心目标

DeepSeek 虚拟硬件层的设计围绕三个根本目标：

通信全互联虚拟化：将节点内 NVLink 和节点间 InfiniBand 虚拟化为统一带宽池，使每个 token 的 all-to-all 传输可以根据实时带宽拥塞情况，动态选择最优物理链路。
时间维度的虚拟流水线：通过调度计算 kernel、NVLink 通信 kernel 和 IB 通信 kernel 在 SM 上的并发执行，实现计算与通信在时间片上的微观重叠，将端到端延迟隐藏在计算阴影中。
空间维度的虚拟专家布局：建立逻辑专家图到物理 GPU 的柔性映射层，支持专家的动态冗余、热迁移与无感负载调整，使得路由平衡不再依赖强梯度的辅助损失。

三者协同，使得 2048 块 GPU 的集群呈现给上层训练循环的是一台“虚拟巨型 GPU”：拥有 2048×80GB 的连续显存地址空间、统一的高带宽低延迟通信结构，以及可以任意伸缩的计算网格。

2.2 分层架构

图 1 展示了虚拟硬件层的分层结构（文字描述）：

最上层：模型逻辑层。执行 Transformer 计算图、MoE 路由与专家计算，所有操作针对逻辑设备（如逻辑 expert id、逻辑流水线 stage）发出。
中间层：虚拟硬件抽象层（VHAL）。包含三个子模块：
- 虚拟通信平面（vComm）：管理虚拟通道（vChannel），将 all-to-all 请求映射为 NVLink 和 IB 的混合传输计划。
- 虚拟拓扑管理器（vTopo）：维护逻辑专家到物理 GPU 的映射表，实时监控负载与带宽，触发透明迁移。
- 虚拟流水线调度器（vPipe）：执行 DualPipe 时间片分配，决定前向块、反向块、发送/接收 chunks 的微观排布。
最底层：物理硬件驱动与内核。包括 CUDA 内核、NCCL/RDMA 通信原语、NVSwitch 端口控制、GPU 显存管理器等。虚拟硬件层通过自定义 PTX/SASS 汇编级 kernel 和 DeepEP 库直接操控硬件，旁路了部分标准 CUDA 开销。

这种分层使得模型开发者无需关心底层是 H800 的 SXM 还是 PCIe 版本、IB 是 HDR 还是 NDR，也不必调整并行切分策略即可在 1K 到 16K 卡规模下平滑扩展。

3. 通信虚拟化：融合 NVLink 与 InfiniBand 的虚拟通信平面

MoE 的全对全通信是最核心的瓶颈。以 DeepSeek-V3 为例，每层 MoE 包含 1 个共享专家和 256 个路由专家，每个 token 激活 8 个专家，在 2048 GPU 的专家并行组内，dispatch 阶段每个 GPU 需要将 token 向量发送到激活专家所在的 GPU，通信量巨大且为不规则多对多。

3.1 物理通信资源的异构性

单台 H800 节点内部通常通过 NVSwitch 实现 8 卡全互联，单卡 NVLink 双向带宽约 400 GB/s（具体取决于配置）。节点之间则通过 8 块 InfiniBand HCA（如 ConnectX-7）连接，每卡可能对应 200 Gb/s 或 400 Gb/s 的 IB 带宽，且 IB 带宽往往与 GPU 并非一一对应（例如 8 卡共享 8 个 IB 端口，存在 PCIe 竞争）。NVLink 域内延迟约 1 μs，而跨节点 RDMA 延迟约为 3-5 μs，带宽也相差数倍。如果在 all-to-all 中简单按目的地划界（同节点用 NVLink，跨节点用 IB），会导致节点内 NVLink 带宽利用不饱和，而 IB 链路因负载过高出现拥塞和丢包，整体吞吐严重下降。

3.2 DeepEP 通信库与虚拟通道映射

为解决这一问题，DeepSeek 开发了 DeepEP 通信库，并开源。DeepEP 明确定义了虚拟硬件映射（virtual hardware mapping）：它将每个 GPU 的 NVLink 和 IB 物理链路抽象为多个虚拟通道（vChannel），每个 vChannel 拥有可配置的带宽权重与优先级。在 dispatch 和 combine 内核中，通信请求不再直接面向物理连接，而是提交到 vChannel 队列。DeepEP 的后端调度器运行时根据如下策略进行硬件映射：

带宽融合：对于同一目的地，可同时利用 NVLink 和 IB 进行分流。例如，需要向另一节点的 GPU 发送大块 token 数据时，DeepEP 会将数据拆分为两部分：一部分经由本地 NVLink 传输到目标节点在当前节点内最近的中继 GPU（可能是任意一块与目标 IB 拓扑近端的 GPU），再由该中继通过 IB 发送；另一部分直接走本机 IB HCA 发送。这条“中继路径”有效利用了节点内 NVLink 的富余带宽，绕开了本机 IB 端口的带宽瓶颈。
拥塞感知路由：vChannel 状态机监控每个物理链路的待发送字节数，当某条 IB 链路出现微突发拥塞时，调度器会将新增流量自动偏移到其他 vChannel（例如经由其他中继节点 NVLink→IB 路径），实现类 ECMP 的动态负载均衡。在 DeepSeek-V3 论文中提及，通过这种机制，跨节点 all-to-all 通信效率相比基线 NCCL 方案提升了 30% 以上。
内核融合与 SM 隔离：DeepEP 的 dispatch/combine kernel 占用部分 SM 资源，通过 CUDA MPS 或持久线程块实现。它预留专用 SM 用于通信，与计算 kernel 的 SM 物理隔离，避免 cache 颠簸和寄存器溢出。这种 SM 划分使得通信和计算可以在同一 GPU 上同时进行，而不会互相阻塞计算 warp 的发射。

3.3 零拷贝与 RDMA 内核旁路

为进一步降低延迟，DeepEP 引入了零拷贝路径：当 GPU 间处于同一 NVLink 域时，直接使用 load/store 语义通过 NVLink 访问对端显存，不再经过标准 IPC 或 cudaMemcpy；跨节点时，利用 IB 的 RDMA write/read，并且自建 QP 管理，绕过 NCCL 的 ring/tree 算法。在 deep_ep 库的源码中可以看到，其通信内核用 PTX 指令精细控制了数据搬运与同步，将 GPU 线程块直接与 IB QP 绑定，达到了接近硬件极限的消息速率（例如 100+ M messages/s 的调度粒度）。这本质上是在虚拟硬件层内创建了极度轻量的用户态协议栈。

3.4 性能表现

论文数据显示，在 DeepSeek-V3 训练中，使用该虚拟通信平面后，专家并行的 all-to-all 通信开销（包括 dispatch 和 combine）被成功重叠在计算之中，暴露给主循环的额外延迟接近于零。每个训练迭代中，反向计算与 all-to-all 通信完全并行，使得 end-to-end 时间相比非重叠方案减少约 40%。2048 GPU 集群的 MFU 维持在 51% 左右，考虑到 MoE 的稀疏激活和频繁通信，这已经是极高的水平。

4. 计算与流水线虚拟化：DualPipe 与双向调度

除了专家并行通信，流水线并行（PP）也因跨 stage 的点对点通信引入气泡。DeepSeek 设计的 DualPipe 算法与虚拟流水线调度器紧密结合，实现了计算与前向/反向通信的完美交织。

4.1 传统 1F1B 的局限

在经典的 1F1B 流水线调度中，每个设备先连续执行若干微批次的前向，然后开始反向，中间插入前向发送/接收和反向发送/接收。这导致了两个显著气泡：前向末尾与反向开始之间的空闲，以及各 stage 间因依赖造成的前向-反向交错间隙。在跨节点场景中，由于节点间通信带宽相对更低，通信延迟使得气泡问题雪上加霜。

4.2 DualPipe 算法的虚拟化视角

DualPipe 的核心思想是将一个训练 step 的计算和通信分解为更细粒度的小块（chunks），并在两个方向上同时流动流水线：不仅从 stage 0 到 stage N 正向流动，还从 stage N 到 stage 0 反向流动另一部分计算，使得发送和接收可以在相反方向上同时进行，充分利用全双工链路。

从虚拟硬件层的角度看，DualPipe 实现了一个虚拟调度器，它将每个物理 GPU 的逻辑时间线切分为等长的时间片（slot），每个 slot 可以分配给：前向计算、反向计算、NVLink 发送/接收、IB 发送/接收。调度器的约束是：同一 slot 内，分配的计算 kernel 和通信 kernel 必须使用互不冲突的物理资源（不同的 SM 分区、不同的 NVLink/IB 端口），并且满足数据依赖。

图 2 展示了 DualPipe 的虚拟时间片排布（描述）：横轴为时间，纵轴为 GPU index。在一个流水线循环内，可以看到前向计算块（F）与反向计算块（B）交错排列，而在它们的空隙中，精确地插入了节点间的 IB 通信（Comm1）和节点内的 NVLink 通信（Comm2），且这些通信块方向相反、互为镜像。整体呈现出一种“DNA 双螺旋”般的双向流动结构，几乎消除了空闲。

4.3 计算-通信重叠的数学保证

设一个微批次的前向计算时间为 F，反向为 B，跨节点通信量为 V，IB 带宽为 BW_IB，节点内 NVLink 带宽为 BW_NVL。传统方案总时间近似为 sum(F+B) + 通信时间（不可重叠部分）。在 DualPipe 调度中，通信被切分成大量微传输，只要 BW_IB 和 BW_NVL 足够使微传输时间小于相邻计算块的时间宽度，即可实现完全隐藏。DeepSeek 根据 H800 的硬件特性，精细平衡了 chunk 大小，使得在 2048 GPU 规模下，计算 SM 占用率与通信 SM 占用率同时接近饱和，但各自处于独立分区，互不干扰。

4.4 与“Zero Bubble”方案的对比

近期一些工作提出通过手动调度减少气泡，如 ZB-H1 等。DualPipe 的不同之处在于它将通信虚拟化层与调度紧密耦合：它不只是重新排列算子顺序，而是利用了 DeepEP 提供的异步虚拟通道，可以在一个 slot 内同时发起多个方向的通信，且通信内核会自行选择空闲链路。论文对比表明，DualPipe 的气泡率接近零，且不需要在 stage 之间插入额外的 warm-up/cool-down 微批次，对 batch size 更为鲁棒。

5. 内存与专家虚拟化：无限扩展的虚拟设备

MoE 的另一个挑战是专家参数放置与负载均衡。DeepSeek 的虚拟硬件层通过专家冗余、动态迁移和虚拟路由表，实现了内存与计算的解耦。

5.1 专家冗余与虚拟副本

为了应对热门专家引起的单 GPU 计算过载，DeepSeek-V3 在训练期间对部分高频专家制作了冗余副本，放置在不同的物理 GPU 上。从虚拟硬件层看，逻辑专家 “E_i” 可以被虚拟拓扑管理器映射到多个物理副本 {E_i^0, E_i^1, ...}。当路由分发 token 时，虚拟路由器根据副本负载和网络距离选择最优物理副本，这个选择过程对上层路由模块透明。这相当于引入了“虚拟专家实例”概念。

在 DeepSeek-V3 论文中，这一机制配合无辅助损失负载均衡策略，使得即使不依赖强制的辅助损失，专家负载也能保持高度均衡，单个专家的最大负载不超过平均负载的 1.3 倍，避免了丢弃 token 带来的训练不稳定。

5.2 虚拟内存与参数迁移

在训练过程中，如果检测到某些专家的热度发生漂移，虚拟拓扑管理器可以发起专家参数的透明迁移：在后台通过 NVLink/IB 将专家张量从源 GPU 移动到目标 GPU，同时冻结该专家的路由决策，迁移完成后原子地更新虚拟路由表。这一过程类似于虚拟化环境下的虚拟机热迁移。得益于高速通信平面，一个包含数十亿参数的专家迁移可在毫秒级完成，且在训练中几乎不引起停顿。目前 DeepSeek 已将此作为弹性训练的一部分，用于处理 GPU 掉卡或动态扩缩容场景。

5.3 FP8 训练中的虚拟内存管理

DeepSeek-V3 在全流程采用 FP8 混合精度训练，其对显存的敏感性极高。虚拟硬件层提供了细粒度的虚拟内存分配器：将模型参数、梯度、优化器状态以物理块的形式管理，并对齐到 SM 的 L2 cache 行，减少 FP8 转换带来的精度损失。在一次前向或反向中，根据 vPipe 调度，提前将需要的专家 FP8 权重异步预取到寄存器或共享内存，实现了“即时编译式”的权重流式加载，降低了整体显存占用。这是使得 671B 总参数模型可以在 2048 块 H800 (80GB) 上顺利训练的关键。

6. 推理场景中的虚拟硬件层：DeepSeek-R1 推理系统

训练完成后，虚拟硬件层的设计在推理中同样发挥了巨大作用。DeepSeek-R1 的推理系统要求支持高吞吐的低延迟在线服务和庞大的 KV 缓存管理。

6.1 预填充与解码的解耦虚拟化

推理分为预填充（prefill）和解码（decode）两个阶段，其计算特性截然不同。虚拟硬件层允许将预填充和解码部署在不同的虚拟设备组上，共享同一套专家参数存储。通过虚拟内存映射，预填充节点可以访问与解码节点相同的专家权重物理页（只读），避免了为两个阶段各自维护完整副本。这显著降低了部署成本。

6.2 实时专家路由与冗余调度

在线推理时，token 到达率波动大，热门专家负载瞬间升高。虚拟拓扑管理器会依据队列深度动态增加热门专家的虚拟副本，并在物理 GPU 间重新均衡。由于 DeepEP 的 vChannel 支持亚毫秒级的重路由，可以在不丢失请求的前提下实时调整。这种“虚拟化的弹性推理”使得 DeepSeek-R1 能在数千并发下保持低延迟，且大规模专家并行的成本仍然可控。

7. 虚拟硬件层的实现：HAI-LLM 框架及硬件协同

虚拟硬件层并非纸上谈兵，其实现深度绑定于深度求索自研的训练框架 HAI-LLM，以及一系列底层手工优化的汇编内核。

7.1 HAI-LLM 的角色

HAI-LLM 是 DeepSeek 的全栈分布式训练系统，它将模型的前向/反向计算图转化为对虚拟硬件层的调用。在构建执行计划时，HAI-LLM 会根据集群实际拓扑（通过拓扑探测器获取 NVSwitch、IB 交换机连接图）实例化虚拟拓扑管理器，并生成优化的 DualPipe 调度表。然后，该调度表被编译为一系列 CUDA kernel 启动命令与 DeepEP 通信原语序列，下发给各物理 GPU。

7.2 PTX/SASS 级别优化

为了榨干 H800 的性能，DeepSeek 团队重写了多个关键 kernel，包括 FP8 矩阵乘加（GEMM）、注意力计算（FlashMLA）以及 MoE 的路由与排列。以 DeepEP 的通信内核为例，它使用了内联 PTX 来直接管理 NVLink 的 LD/ST 指令和 IB 的 doorbell 寄存器写入，并且利用了 Tensor Memory Accelerator（TMA）等 H100/H800 新特性。这些 kernel 对 SM 占用率、寄存器文件使用、L1/SHMEM 划分都做了极致的轮询设计，以匹配虚拟硬件层抽象所需的“无干扰并发”。

7.3 容错与弹性

虚拟硬件层的另一个价值在于容错。当某个 GPU 出现硬件故障（如 Xid 错误），虚拟拓扑管理器可以标记该物理设备为不可用，将它的逻辑责任（流水线 stage、专家、vChannel 端点）透明迁移到备用 GPU，并回放最近 checkpoint 的微批次。尽管目前论文未详细披露弹性训练的实现细节，但从其工程深度推断，虚拟硬件层的抽象极大地简化了故障恢复流程，避免了全集群重启。

8. 性能与效率深度剖析：以 DeepSeek-V3 为例

DeepSeek-V3 的训练是检验虚拟硬件层效率的最佳试金石。

8.1 总体训练成本与吞吐

根据 DeepSeek-V3 技术报告，在 14.8 万亿 token 的预训练中，模型总训练成本约为 2.788M H800 GPU 小时，折合每万亿 token 约 180K GPU 小时。相比之下，同级别稠密模型的万亿 token 训练成本通常要高出 10 倍以上。在 2048 H800 集群上，每 GPU 每秒可处理约 59.7 TFLOPs 的有效模型计算（FP8 峰值约 990 TFLOPS），对应 MFU 约为 51%，其中计算时间占比高，通信时间几乎全部被隐藏。

8.2 虚拟硬件层节省的来源

我们将效率提升拆解为几个因素：

通信重叠率：DualPipe + 虚拟通信平面使得 all-to-all 和点对点通信的 99% 以上延迟被计算覆盖，与无重叠基线相比，节省约 40% 的端到端时间。
气泡消除：流水线气泡率从传统 1F1B 的约 20-30% 降至几乎为 0，节省约 25% 的整体计算时间。
负载均衡与无丢弃：无辅助损失的动态虚拟路由避免了约 5% 的 token 丢弃损失，并减少了同步开销。
内存效率：FP8 与虚拟内存管理允许使用更大的 batch size，减少了迭代次数和 AllReduce 频次，隐含约 10% 的效率增益。

综合相乘效应，使得 V3 的训练效率数倍于传统方案。

8.3 与领先系统的对比

Megatron-LM 和 DeepSpeed 在类似规模下的最佳实践通常能达到 30-35% 的 MFU（使用 BF16），且通信与计算重叠有限。DeepSeek 通过垂直整合虚拟硬件层，打破了框架与通信库之间的界限，实现了软硬协同的极致优化。可以说，DeepSeek 在 AI Infra 领域引领了一场“虚拟化革命”。

9. 挑战、局限与未来方向

尽管虚拟硬件层取得了惊人成效，但也面临挑战：

9.1 硬件依赖性

当前虚拟硬件层的实现深度依赖 H800 的 NVSwitch、FP8 Tensor Core、TMA 等专属特性。迁移到其他 GPU（如 A100、B200 或国产加速器）需要重写相当部分的 PTX 汇编内核，并重新建模虚拟通道的带宽与时序，这限制了其生态通用性。

9.2 复杂性与调试难度

虚拟硬件层是一个高度复杂的异步系统，内核并发、动态路由与专家迁移带来了并发 bug 的调试噩梦。轻微的时间片抖动或 vChannel 调度策略缺陷都可能导致训练吞吐骤降或隐性正确性问题。

9.3 向异构算力的扩展

未来 AI 集群可能包含多种加速器，例如 GPU + NPU 混合训练。如何将虚拟硬件层扩展到异构设备，统一它们的通信与内存模型，是极具挑战的方向。DeepSeek 已在探索将虚拟硬件层抽象进一步上移，通过编译器生成不同后端的代码，但尚未成熟。

9.4 标准化与开源生态

目前 DeepEP 已开源，HAI-LLM 部分组件也在逐步公开。但虚拟硬件层的完整构建方法论仍未形成行业标准。如果 DeepSeek 能联合社区推动类似“虚拟 AI 硬件抽象层”（vAHA）的标准化，将有助于整个产业降低大模型训练门槛。

10. 结论

DeepSeek 的虚拟硬件层不仅是一项工程优化，更代表着大模型基础设施的系统性思维跃迁。它通过通信虚拟化、计算流水线虚拟化以及内存/专家虚拟化，将复杂的物理集群抽象为一台逻辑上统一、调度极度灵活的“巨型 GPU”，使得超大规模 MoE 模型的训练效率达到前所未有的高度。DeepSeek-V3 及 R1 的训练与推理实践，验证了这一架构的经济性优越性：万亿级模型的训练成本降低一个数量级，推理部署也具备了企业级弹性。展望未来，随着 AI 模型向多模态、主动学习、自主进化方向发展，底层基础设施的虚拟化抽象层级将持续上移，而 DeepSeek 的虚拟硬件层设计思路，无疑为整个产业指明了下一代 AI 超算系统构建的方向。

参考文献

DeepSeek-AI. (2024). DeepSeek-V3 Technical Report. arXiv preprint.
DeepSeek-AI. (2025). DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning. arXiv preprint.
DeepSeek-AI. (2024). DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model. arXiv preprint.
DeepEP: A communication library for mixture-of-experts training. GitHub repository, https://github.com/deepseek-ai/deepep.
HAI-LLM: DeepSeek’s distributed training framework. (Internal documentation, partially open-sourced).
Narayanan, D., et al. (2019). PipeDream: Generalized Pipeline Parallelism for DNN Training. SOSP.
NVIDIA. (2023). NVSwitch and NVLink Technical Overview.
Rajbhandari, S., et al. (2022). DeepSpeed-MoE: Advancing Mixture-of-Experts Inference and Training. ICML.
Shoeybi, M., et al. (2019). Megatron-LM: Training Multi-Billion Parameter Language Models Using Model Parallelism. arXiv.
Zheng, L., et al. (2022). Alpa: Automating Inter- and Intra-Operator Parallelism for Distributed Deep Learning. OSDI.

本文由 AI 生成，内容仅供参考，请仔细甄别。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

AI 模型部署自动化脚本开发

而自动化脚本开发通过代码化、流程化的方式，显著提升了模型部署的效率和可靠性，成为企业实现AI规模化落地的核心工具。例如，使用Docker容器化技术封装模型依赖，结合Kubernetes编排工具，实现跨平台的标准化部署，避免因环境差异导致的运行失败。例如，当模型性能通过验证后，脚本自动将流量切换至新版本，完成零干预升级。例如，利用Terraform管理不同云平台的资源，结合Ansible同步配置，确

AtomGit开源社区

大湾区医疗健康EMBA实测解析与科学选型指南

师资团队国际化程度极高，外籍教师占比约50%，100%博士学历，汇聚哈佛、剑桥、斯坦福、哥伦比亚等全球顶级高校学者，覆盖战略管理、资本运作、市场营销、宏观经济、组织变革等全领域，兼具学术深度与企业实战经验。二是数字化转型，助力传统医疗企业落地AI医疗、智能设备研发等科技升级；依托港科大顶尖的AI、数据科学科研实力，精准匹配当下智慧医疗、医疗数字化转型的行业趋势，同时完善的跨境课程与全球游学体系，完

AtomGit开源社区

DALI / UMAP / H5

这几个词通常出现在深度学习框架、数据处理库、AI训练平台或代码仓库的功能说明中，表示该系统支持相应的数据处理技术或文件格式。DALI 指的是 NVIDIA DALI（Data Loading Library）。它是 NVIDIA 开发的高性能数据加载与预处理框架，主要用于加速训练过程。例如 ImageNet 训练时，DALI 可以减少 CPU 成为瓶颈的问题。对于大规模视觉训练（ImageNet、

AtomGit开源社区

所有评论(0)

查看更多评论

junecauzhang

@junecauzhang

已为社区贡献26条内容

DeepSeek 虚拟硬件层：从抽象到极致效率

junecauzhang

DeepSeek 虚拟硬件层：从抽象到极致效率

摘要

1. 引言

1.1 DeepSeek 系列模型的演进

1.2 大规模 MoE 面临的基础设施困境

1.3 虚拟硬件层概念的提出

2. 设计哲学与总体架构

2.1 虚拟硬件层的核心目标

2.2 分层架构

3. 通信虚拟化：融合 NVLink 与 InfiniBand 的虚拟通信平面

3.1 物理通信资源的异构性

3.2 DeepEP 通信库与虚拟通道映射

3.3 零拷贝与 RDMA 内核旁路

3.4 性能表现

4. 计算与流水线虚拟化：DualPipe 与双向调度

4.1 传统 1F1B 的局限

4.2 DualPipe 算法的虚拟化视角

4.3 计算-通信重叠的数学保证

4.4 与“Zero Bubble”方案的对比

5. 内存与专家虚拟化：无限扩展的虚拟设备

5.1 专家冗余与虚拟副本

5.2 虚拟内存与参数迁移

5.3 FP8 训练中的虚拟内存管理

6. 推理场景中的虚拟硬件层：DeepSeek-R1 推理系统

6.1 预填充与解码的解耦虚拟化

6.2 实时专家路由与冗余调度

7. 虚拟硬件层的实现：HAI-LLM 框架及硬件协同

7.1 HAI-LLM 的角色

7.2 PTX/SASS 级别优化

7.3 容错与弹性

8. 性能与效率深度剖析：以 DeepSeek-V3 为例

8.1 总体训练成本与吞吐

8.2 虚拟硬件层节省的来源

8.3 与领先系统的对比

9. 挑战、局限与未来方向

9.1 硬件依赖性

9.2 复杂性与调试难度

9.3 向异构算力的扩展

9.4 标准化与开源生态

10. 结论

所有评论(0)

温馨提示：您尚未绑定手机号

junecauzhang