DeepSeek 虚拟硬件层:从抽象到极致效率
DeepSeek 虚拟硬件层:从抽象到极致效率
摘要
随着大语言模型参数规模迈向万亿级别,混合专家(Mixture-of-Experts, MoE)架构成为平衡模型能力与计算成本的关键路径。然而,MoE 特有的全对全(all-to-all)通信模式、海量专家的跨节点调度与精细的流水线并行,使底层异构硬件资源的复杂性空前放大。DeepSeek 通过构建一套完整的虚拟硬件层(Virtual Hardware Layer),将 NVLink 域内高速互联、InfiniBand 跨节点通信、GPU 计算单元与显存抽象为统一的逻辑资源池,为上层的 DualPipe 流水线、专家并行和 FP8 混合精度训练提供了硬件无感的运行环境。本文对 DeepSeek 虚拟硬件层的设计哲学、架构组件(通信虚拟化、计算流水线虚拟化、内存/专家虚拟化)、核心实现(DeepEP 通信库、HAI-LLM 框架)以及在训练与推理场景中的极致效率表现进行了深度剖析。研究表明,该虚拟硬件层使得在 2048 块 NVIDIA H800 GPU 上训练 DeepSeek-V3 时,实现每万亿 token 仅需 180k H800 GPU 小时,模型算力利用率(MFU)高达 51%,通信计算重叠率接近 100%,为大规模 MoE 基础设施树立了新的效率标杆。
1. 引言
1.1 DeepSeek 系列模型的演进
深度求索(DeepSeek)自 2023 年推出首代模型以来,迅速迭代至 DeepSeek-V2、V3 及推理增强版 DeepSeek-R1,参数总量最高达到 671B,其中每个 token 激活的参数仅 37B,采用细粒度混合专家架构。DeepSeek-V2 率先提出 DeepSeekMoE,引入共享专家与细粒度路由专家的双层结构;DeepSeek-V3 在此基础上进一步实现了无辅助损失(auxiliary-loss-free)的负载均衡策略,并首次在如此大规模模型上全程采用 FP8 混合精度训练。DeepSeek-R1 则通过强化学习赋能推理能力,且整套推理系统同样构建于同一套虚拟化基础设施之上。这一系列模型不仅在多个 benchmark 上比肩甚至超越 GPT-4 等闭源巨头,其训练成本之低更震惊业界,背后正是其对基础设施的激进重构,尤其是虚拟硬件层的系统级创新。
1.2 大规模 MoE 面临的基础设施困境
MoE 的训练和推理要求频繁的专家分发(dispatch)与汇聚(combine)操作,其通信模式为全局全对全,数据流在数百乃至数千块 GPU 之间按 token 级别动态穿梭。传统分布式训练框架(如 Megatron-LM 的专家并行方案,或 DeepSpeed-MoE)通常将通信和计算分时进行,NVLink 与 RDMA 网卡(如 InfiniBand)也被视为独立信道,导致三个层面的浪费:第一,通信拓扑与负载不匹配,NVLink 高带宽低延迟但只限于单节点 8 卡内,IB 跨节点带宽相对不足且延迟高,两者割裂导致网络资源无法池化调度;第二,计算-通信流水线气泡,传统 1F1B(one-forward-one-backward)流水线在跨节点场景下气泡率严重,计算与通信无法充分重叠;第三,内存与专家映射僵化,专家的静态放置和缺少虚拟内存抽象使负载不均时 GPU 显存浪费严重,动态冗余需要昂贵的全量参数拷贝。
这些困境的根源在于:上层模型逻辑与物理硬件拓扑紧密耦合,任何硬件异构性(H800 的 NVSwitch 拓扑、NUMA 亲和性、IB 网卡 PCIe 带宽竞争)都会直接影响模型执行的效率与稳定性。因此,构建一个屏蔽物理差异、提供统一可编程接口的“虚拟硬件层”成为破局关键。
1.3 虚拟硬件层概念的提出
DeepSeek 在其技术报告与开源组件中并未专门用“虚拟硬件层”这一术语来概括全部设计,但其一系列底层创新——包括 DeepEP 通信库中明确的 “virtual hardware mapping” 概念、DualPipe 算法的虚拟时序调度、以及 HAI-LLM 框架中硬件感知的算子编排——共同构成了一套事实上的虚拟硬件层。该层对上暴露逻辑设备、逻辑通道与虚拟时间片,对下精细管理 NVSwitch 端口、RDMA 队列对(QP)、SM(流多处理器)簇与显存物理页。本文将其统一抽象为“DeepSeek 虚拟硬件层”,并对此展开深入剖析。
2. 设计哲学与总体架构
2.1 虚拟硬件层的核心目标
DeepSeek 虚拟硬件层的设计围绕三个根本目标:
-
通信全互联虚拟化:将节点内 NVLink 和节点间 InfiniBand 虚拟化为统一带宽池,使每个 token 的 all-to-all 传输可以根据实时带宽拥塞情况,动态选择最优物理链路。
-
时间维度的虚拟流水线:通过调度计算 kernel、NVLink 通信 kernel 和 IB 通信 kernel 在 SM 上的并发执行,实现计算与通信在时间片上的微观重叠,将端到端延迟隐藏在计算阴影中。
-
空间维度的虚拟专家布局:建立逻辑专家图到物理 GPU 的柔性映射层,支持专家的动态冗余、热迁移与无感负载调整,使得路由平衡不再依赖强梯度的辅助损失。
三者协同,使得 2048 块 GPU 的集群呈现给上层训练循环的是一台“虚拟巨型 GPU”:拥有 2048×80GB 的连续显存地址空间、统一的高带宽低延迟通信结构,以及可以任意伸缩的计算网格。
2.2 分层架构
图 1 展示了虚拟硬件层的分层结构(文字描述):
-
最上层:模型逻辑层。执行 Transformer 计算图、MoE 路由与专家计算,所有操作针对逻辑设备(如逻辑 expert id、逻辑流水线 stage)发出。
-
中间层:虚拟硬件抽象层(VHAL)。包含三个子模块:
-
虚拟通信平面(vComm):管理虚拟通道(vChannel),将 all-to-all 请求映射为 NVLink 和 IB 的混合传输计划。
-
虚拟拓扑管理器(vTopo):维护逻辑专家到物理 GPU 的映射表,实时监控负载与带宽,触发透明迁移。
-
虚拟流水线调度器(vPipe):执行 DualPipe 时间片分配,决定前向块、反向块、发送/接收 chunks 的微观排布。
-
-
最底层:物理硬件驱动与内核。包括 CUDA 内核、NCCL/RDMA 通信原语、NVSwitch 端口控制、GPU 显存管理器等。虚拟硬件层通过自定义 PTX/SASS 汇编级 kernel 和 DeepEP 库直接操控硬件,旁路了部分标准 CUDA 开销。
这种分层使得模型开发者无需关心底层是 H800 的 SXM 还是 PCIe 版本、IB 是 HDR 还是 NDR,也不必调整并行切分策略即可在 1K 到 16K 卡规模下平滑扩展。
3. 通信虚拟化:融合 NVLink 与 InfiniBand 的虚拟通信平面
MoE 的全对全通信是最核心的瓶颈。以 DeepSeek-V3 为例,每层 MoE 包含 1 个共享专家和 256 个路由专家,每个 token 激活 8 个专家,在 2048 GPU 的专家并行组内,dispatch 阶段每个 GPU 需要将 token 向量发送到激活专家所在的 GPU,通信量巨大且为不规则多对多。
3.1 物理通信资源的异构性
单台 H800 节点内部通常通过 NVSwitch 实现 8 卡全互联,单卡 NVLink 双向带宽约 400 GB/s(具体取决于配置)。节点之间则通过 8 块 InfiniBand HCA(如 ConnectX-7)连接,每卡可能对应 200 Gb/s 或 400 Gb/s 的 IB 带宽,且 IB 带宽往往与 GPU 并非一一对应(例如 8 卡共享 8 个 IB 端口,存在 PCIe 竞争)。NVLink 域内延迟约 1 μs,而跨节点 RDMA 延迟约为 3-5 μs,带宽也相差数倍。如果在 all-to-all 中简单按目的地划界(同节点用 NVLink,跨节点用 IB),会导致节点内 NVLink 带宽利用不饱和,而 IB 链路因负载过高出现拥塞和丢包,整体吞吐严重下降。
3.2 DeepEP 通信库与虚拟通道映射
为解决这一问题,DeepSeek 开发了 DeepEP 通信库,并开源。DeepEP 明确定义了虚拟硬件映射(virtual hardware mapping):它将每个 GPU 的 NVLink 和 IB 物理链路抽象为多个虚拟通道(vChannel),每个 vChannel 拥有可配置的带宽权重与优先级。在 dispatch 和 combine 内核中,通信请求不再直接面向物理连接,而是提交到 vChannel 队列。DeepEP 的后端调度器运行时根据如下策略进行硬件映射:
-
带宽融合:对于同一目的地,可同时利用 NVLink 和 IB 进行分流。例如,需要向另一节点的 GPU 发送大块 token 数据时,DeepEP 会将数据拆分为两部分:一部分经由本地 NVLink 传输到目标节点在当前节点内最近的中继 GPU(可能是任意一块与目标 IB 拓扑近端的 GPU),再由该中继通过 IB 发送;另一部分直接走本机 IB HCA 发送。这条“中继路径”有效利用了节点内 NVLink 的富余带宽,绕开了本机 IB 端口的带宽瓶颈。
-
拥塞感知路由:vChannel 状态机监控每个物理链路的待发送字节数,当某条 IB 链路出现微突发拥塞时,调度器会将新增流量自动偏移到其他 vChannel(例如经由其他中继节点 NVLink→IB 路径),实现类 ECMP 的动态负载均衡。在 DeepSeek-V3 论文中提及,通过这种机制,跨节点 all-to-all 通信效率相比基线 NCCL 方案提升了 30% 以上。
-
内核融合与 SM 隔离:DeepEP 的 dispatch/combine kernel 占用部分 SM 资源,通过 CUDA MPS 或持久线程块实现。它预留专用 SM 用于通信,与计算 kernel 的 SM 物理隔离,避免 cache 颠簸和寄存器溢出。这种 SM 划分使得通信和计算可以在同一 GPU 上同时进行,而不会互相阻塞计算 warp 的发射。
3.3 零拷贝与 RDMA 内核旁路
为进一步降低延迟,DeepEP 引入了零拷贝路径:当 GPU 间处于同一 NVLink 域时,直接使用 load/store 语义通过 NVLink 访问对端显存,不再经过标准 IPC 或 cudaMemcpy;跨节点时,利用 IB 的 RDMA write/read,并且自建 QP 管理,绕过 NCCL 的 ring/tree 算法。在 deep_ep 库的源码中可以看到,其通信内核用 PTX 指令精细控制了数据搬运与同步,将 GPU 线程块直接与 IB QP 绑定,达到了接近硬件极限的消息速率(例如 100+ M messages/s 的调度粒度)。这本质上是在虚拟硬件层内创建了极度轻量的用户态协议栈。
3.4 性能表现
论文数据显示,在 DeepSeek-V3 训练中,使用该虚拟通信平面后,专家并行的 all-to-all 通信开销(包括 dispatch 和 combine)被成功重叠在计算之中,暴露给主循环的额外延迟接近于零。每个训练迭代中,反向计算与 all-to-all 通信完全并行,使得 end-to-end 时间相比非重叠方案减少约 40%。2048 GPU 集群的 MFU 维持在 51% 左右,考虑到 MoE 的稀疏激活和频繁通信,这已经是极高的水平。
4. 计算与流水线虚拟化:DualPipe 与双向调度
除了专家并行通信,流水线并行(PP)也因跨 stage 的点对点通信引入气泡。DeepSeek 设计的 DualPipe 算法与虚拟流水线调度器紧密结合,实现了计算与前向/反向通信的完美交织。
4.1 传统 1F1B 的局限
在经典的 1F1B 流水线调度中,每个设备先连续执行若干微批次的前向,然后开始反向,中间插入前向发送/接收和反向发送/接收。这导致了两个显著气泡:前向末尾与反向开始之间的空闲,以及各 stage 间因依赖造成的前向-反向交错间隙。在跨节点场景中,由于节点间通信带宽相对更低,通信延迟使得气泡问题雪上加霜。
4.2 DualPipe 算法的虚拟化视角
DualPipe 的核心思想是将一个训练 step 的计算和通信分解为更细粒度的小块(chunks),并在两个方向上同时流动流水线:不仅从 stage 0 到 stage N 正向流动,还从 stage N 到 stage 0 反向流动另一部分计算,使得发送和接收可以在相反方向上同时进行,充分利用全双工链路。
从虚拟硬件层的角度看,DualPipe 实现了一个虚拟调度器,它将每个物理 GPU 的逻辑时间线切分为等长的时间片(slot),每个 slot 可以分配给:前向计算、反向计算、NVLink 发送/接收、IB 发送/接收。调度器的约束是:同一 slot 内,分配的计算 kernel 和通信 kernel 必须使用互不冲突的物理资源(不同的 SM 分区、不同的 NVLink/IB 端口),并且满足数据依赖。
图 2 展示了 DualPipe 的虚拟时间片排布(描述):横轴为时间,纵轴为 GPU index。在一个流水线循环内,可以看到前向计算块(F)与反向计算块(B)交错排列,而在它们的空隙中,精确地插入了节点间的 IB 通信(Comm1)和节点内的 NVLink 通信(Comm2),且这些通信块方向相反、互为镜像。整体呈现出一种“DNA 双螺旋”般的双向流动结构,几乎消除了空闲。
4.3 计算-通信重叠的数学保证
设一个微批次的前向计算时间为 F,反向为 B,跨节点通信量为 V,IB 带宽为 BW_IB,节点内 NVLink 带宽为 BW_NVL。传统方案总时间近似为 sum(F+B) + 通信时间(不可重叠部分)。在 DualPipe 调度中,通信被切分成大量微传输,只要 BW_IB 和 BW_NVL 足够使微传输时间小于相邻计算块的时间宽度,即可实现完全隐藏。DeepSeek 根据 H800 的硬件特性,精细平衡了 chunk 大小,使得在 2048 GPU 规模下,计算 SM 占用率与通信 SM 占用率同时接近饱和,但各自处于独立分区,互不干扰。
4.4 与“Zero Bubble”方案的对比
近期一些工作提出通过手动调度减少气泡,如 ZB-H1 等。DualPipe 的不同之处在于它将通信虚拟化层与调度紧密耦合:它不只是重新排列算子顺序,而是利用了 DeepEP 提供的异步虚拟通道,可以在一个 slot 内同时发起多个方向的通信,且通信内核会自行选择空闲链路。论文对比表明,DualPipe 的气泡率接近零,且不需要在 stage 之间插入额外的 warm-up/cool-down 微批次,对 batch size 更为鲁棒。
5. 内存与专家虚拟化:无限扩展的虚拟设备
MoE 的另一个挑战是专家参数放置与负载均衡。DeepSeek 的虚拟硬件层通过专家冗余、动态迁移和虚拟路由表,实现了内存与计算的解耦。
5.1 专家冗余与虚拟副本
为了应对热门专家引起的单 GPU 计算过载,DeepSeek-V3 在训练期间对部分高频专家制作了冗余副本,放置在不同的物理 GPU 上。从虚拟硬件层看,逻辑专家 “E_i” 可以被虚拟拓扑管理器映射到多个物理副本 {E_i^0, E_i^1, ...}。当路由分发 token 时,虚拟路由器根据副本负载和网络距离选择最优物理副本,这个选择过程对上层路由模块透明。这相当于引入了“虚拟专家实例”概念。
在 DeepSeek-V3 论文中,这一机制配合无辅助损失负载均衡策略,使得即使不依赖强制的辅助损失,专家负载也能保持高度均衡,单个专家的最大负载不超过平均负载的 1.3 倍,避免了丢弃 token 带来的训练不稳定。
5.2 虚拟内存与参数迁移
在训练过程中,如果检测到某些专家的热度发生漂移,虚拟拓扑管理器可以发起专家参数的透明迁移:在后台通过 NVLink/IB 将专家张量从源 GPU 移动到目标 GPU,同时冻结该专家的路由决策,迁移完成后原子地更新虚拟路由表。这一过程类似于虚拟化环境下的虚拟机热迁移。得益于高速通信平面,一个包含数十亿参数的专家迁移可在毫秒级完成,且在训练中几乎不引起停顿。目前 DeepSeek 已将此作为弹性训练的一部分,用于处理 GPU 掉卡或动态扩缩容场景。
5.3 FP8 训练中的虚拟内存管理
DeepSeek-V3 在全流程采用 FP8 混合精度训练,其对显存的敏感性极高。虚拟硬件层提供了细粒度的虚拟内存分配器:将模型参数、梯度、优化器状态以物理块的形式管理,并对齐到 SM 的 L2 cache 行,减少 FP8 转换带来的精度损失。在一次前向或反向中,根据 vPipe 调度,提前将需要的专家 FP8 权重异步预取到寄存器或共享内存,实现了“即时编译式”的权重流式加载,降低了整体显存占用。这是使得 671B 总参数模型可以在 2048 块 H800 (80GB) 上顺利训练的关键。
6. 推理场景中的虚拟硬件层:DeepSeek-R1 推理系统
训练完成后,虚拟硬件层的设计在推理中同样发挥了巨大作用。DeepSeek-R1 的推理系统要求支持高吞吐的低延迟在线服务和庞大的 KV 缓存管理。
6.1 预填充与解码的解耦虚拟化
推理分为预填充(prefill)和解码(decode)两个阶段,其计算特性截然不同。虚拟硬件层允许将预填充和解码部署在不同的虚拟设备组上,共享同一套专家参数存储。通过虚拟内存映射,预填充节点可以访问与解码节点相同的专家权重物理页(只读),避免了为两个阶段各自维护完整副本。这显著降低了部署成本。
6.2 实时专家路由与冗余调度
在线推理时,token 到达率波动大,热门专家负载瞬间升高。虚拟拓扑管理器会依据队列深度动态增加热门专家的虚拟副本,并在物理 GPU 间重新均衡。由于 DeepEP 的 vChannel 支持亚毫秒级的重路由,可以在不丢失请求的前提下实时调整。这种“虚拟化的弹性推理”使得 DeepSeek-R1 能在数千并发下保持低延迟,且大规模专家并行的成本仍然可控。
7. 虚拟硬件层的实现:HAI-LLM 框架及硬件协同
虚拟硬件层并非纸上谈兵,其实现深度绑定于深度求索自研的训练框架 HAI-LLM,以及一系列底层手工优化的汇编内核。
7.1 HAI-LLM 的角色
HAI-LLM 是 DeepSeek 的全栈分布式训练系统,它将模型的前向/反向计算图转化为对虚拟硬件层的调用。在构建执行计划时,HAI-LLM 会根据集群实际拓扑(通过拓扑探测器获取 NVSwitch、IB 交换机连接图)实例化虚拟拓扑管理器,并生成优化的 DualPipe 调度表。然后,该调度表被编译为一系列 CUDA kernel 启动命令与 DeepEP 通信原语序列,下发给各物理 GPU。
7.2 PTX/SASS 级别优化
为了榨干 H800 的性能,DeepSeek 团队重写了多个关键 kernel,包括 FP8 矩阵乘加(GEMM)、注意力计算(FlashMLA)以及 MoE 的路由与排列。以 DeepEP 的通信内核为例,它使用了内联 PTX 来直接管理 NVLink 的 LD/ST 指令和 IB 的 doorbell 寄存器写入,并且利用了 Tensor Memory Accelerator(TMA)等 H100/H800 新特性。这些 kernel 对 SM 占用率、寄存器文件使用、L1/SHMEM 划分都做了极致的轮询设计,以匹配虚拟硬件层抽象所需的“无干扰并发”。
7.3 容错与弹性
虚拟硬件层的另一个价值在于容错。当某个 GPU 出现硬件故障(如 Xid 错误),虚拟拓扑管理器可以标记该物理设备为不可用,将它的逻辑责任(流水线 stage、专家、vChannel 端点)透明迁移到备用 GPU,并回放最近 checkpoint 的微批次。尽管目前论文未详细披露弹性训练的实现细节,但从其工程深度推断,虚拟硬件层的抽象极大地简化了故障恢复流程,避免了全集群重启。
8. 性能与效率深度剖析:以 DeepSeek-V3 为例
DeepSeek-V3 的训练是检验虚拟硬件层效率的最佳试金石。
8.1 总体训练成本与吞吐
根据 DeepSeek-V3 技术报告,在 14.8 万亿 token 的预训练中,模型总训练成本约为 2.788M H800 GPU 小时,折合每万亿 token 约 180K GPU 小时。相比之下,同级别稠密模型的万亿 token 训练成本通常要高出 10 倍以上。在 2048 H800 集群上,每 GPU 每秒可处理约 59.7 TFLOPs 的有效模型计算(FP8 峰值约 990 TFLOPS),对应 MFU 约为 51%,其中计算时间占比高,通信时间几乎全部被隐藏。
8.2 虚拟硬件层节省的来源
我们将效率提升拆解为几个因素:
-
通信重叠率:DualPipe + 虚拟通信平面使得 all-to-all 和点对点通信的 99% 以上延迟被计算覆盖,与无重叠基线相比,节省约 40% 的端到端时间。
-
气泡消除:流水线气泡率从传统 1F1B 的约 20-30% 降至几乎为 0,节省约 25% 的整体计算时间。
-
负载均衡与无丢弃:无辅助损失的动态虚拟路由避免了约 5% 的 token 丢弃损失,并减少了同步开销。
-
内存效率:FP8 与虚拟内存管理允许使用更大的 batch size,减少了迭代次数和 AllReduce 频次,隐含约 10% 的效率增益。
综合相乘效应,使得 V3 的训练效率数倍于传统方案。
8.3 与领先系统的对比
Megatron-LM 和 DeepSpeed 在类似规模下的最佳实践通常能达到 30-35% 的 MFU(使用 BF16),且通信与计算重叠有限。DeepSeek 通过垂直整合虚拟硬件层,打破了框架与通信库之间的界限,实现了软硬协同的极致优化。可以说,DeepSeek 在 AI Infra 领域引领了一场“虚拟化革命”。
9. 挑战、局限与未来方向
尽管虚拟硬件层取得了惊人成效,但也面临挑战:
9.1 硬件依赖性
当前虚拟硬件层的实现深度依赖 H800 的 NVSwitch、FP8 Tensor Core、TMA 等专属特性。迁移到其他 GPU(如 A100、B200 或国产加速器)需要重写相当部分的 PTX 汇编内核,并重新建模虚拟通道的带宽与时序,这限制了其生态通用性。
9.2 复杂性与调试难度
虚拟硬件层是一个高度复杂的异步系统,内核并发、动态路由与专家迁移带来了并发 bug 的调试噩梦。轻微的时间片抖动或 vChannel 调度策略缺陷都可能导致训练吞吐骤降或隐性正确性问题。
9.3 向异构算力的扩展
未来 AI 集群可能包含多种加速器,例如 GPU + NPU 混合训练。如何将虚拟硬件层扩展到异构设备,统一它们的通信与内存模型,是极具挑战的方向。DeepSeek 已在探索将虚拟硬件层抽象进一步上移,通过编译器生成不同后端的代码,但尚未成熟。
9.4 标准化与开源生态
目前 DeepEP 已开源,HAI-LLM 部分组件也在逐步公开。但虚拟硬件层的完整构建方法论仍未形成行业标准。如果 DeepSeek 能联合社区推动类似“虚拟 AI 硬件抽象层”(vAHA)的标准化,将有助于整个产业降低大模型训练门槛。
10. 结论
DeepSeek 的虚拟硬件层不仅是一项工程优化,更代表着大模型基础设施的系统性思维跃迁。它通过通信虚拟化、计算流水线虚拟化以及内存/专家虚拟化,将复杂的物理集群抽象为一台逻辑上统一、调度极度灵活的“巨型 GPU”,使得超大规模 MoE 模型的训练效率达到前所未有的高度。DeepSeek-V3 及 R1 的训练与推理实践,验证了这一架构的经济性优越性:万亿级模型的训练成本降低一个数量级,推理部署也具备了企业级弹性。展望未来,随着 AI 模型向多模态、主动学习、自主进化方向发展,底层基础设施的虚拟化抽象层级将持续上移,而 DeepSeek 的虚拟硬件层设计思路,无疑为整个产业指明了下一代 AI 超算系统构建的方向。
参考文献
-
DeepSeek-AI. (2024). DeepSeek-V3 Technical Report. arXiv preprint.
-
DeepSeek-AI. (2025). DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning. arXiv preprint.
-
DeepSeek-AI. (2024). DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model. arXiv preprint.
-
DeepEP: A communication library for mixture-of-experts training. GitHub repository, https://github.com/deepseek-ai/deepep.
-
HAI-LLM: DeepSeek’s distributed training framework. (Internal documentation, partially open-sourced).
-
Narayanan, D., et al. (2019). PipeDream: Generalized Pipeline Parallelism for DNN Training. SOSP.
-
NVIDIA. (2023). NVSwitch and NVLink Technical Overview.
-
Rajbhandari, S., et al. (2022). DeepSpeed-MoE: Advancing Mixture-of-Experts Inference and Training. ICML.
-
Shoeybi, M., et al. (2019). Megatron-LM: Training Multi-Billion Parameter Language Models Using Model Parallelism. arXiv.
-
Zheng, L., et al. (2022). Alpa: Automating Inter- and Intra-Operator Parallelism for Distributed Deep Learning. OSDI.
本文由 AI 生成,内容仅供参考,请仔细甄别。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐


所有评论(0)