10芯齐发：众智FlagOS完成DeepSeek-V4多芯适配，清微智能与曦望实现284B模型版本的适配开源

FlagOS智算系统软件栈

321人浏览 · 2026-05-06 11:08:44

FlagOS智算系统软件栈 · 2026-05-06 11:08:44 发布

在首批海光、沐曦、华为昇腾、摩尔线程、昆仑芯、平头哥真武、天数智芯、英伟达等八家AI芯片厂商完成 DeepSeek-V4 系列模型的Day 0适配后，清微智能（Tsingmicro）与曦望（Sunrise）也第一时间跟进，基于 FlagOS 全栈技术组件完成深度适配，将本次依托FlagOS适配DeepSeek V4系列模型的 AI 芯片种类扩展至10种。两家厂商的加入，进一步验证了 FlagOS "一次开发、跨芯迁移" 技术路线的可扩展性——新芯片接入 FlagOS 生态的周期持续缩短，从早期的数周压缩至数天。我们期待更多芯片厂商加入众智FlagOS生态，依托统一系统软件栈，以"一次开发、跨芯迁移"释放多元硬件算力，共建开放技术生态。

清微智能（Tsingmicro）

清微智能基于自研 RPU 可重构计算芯片，与众智FlagOS社区长达一年的紧密协作，依托 FlagOS 全栈组件快速完成 DeepSeek-V4-Flash 284B 模型的全面适配。

算子适配方面，清微深度接入 FlagGems 算子库，已支持 200+ 个算子，完整覆盖 V4 全部 67 个算子（MoE 调度、Attention、RMSNorm、TopK 路由等），均以 Triton/Triton-TLE 重新实现，并快速补齐 hc_split_sinkhorn、Sparse Attention、Hadamard Transform 等 3 个新增算子。性能优化方面，借助 FlagTree 编译器 Triton-TLE 扩展与自动调优，实现 Compute-Shift GEMM——"一边计算、一边通信"，关键算子性能提升 2.5 倍。精度方面，逐层 dump 编译器 IR 分析新算子，多方案对比实验，最终全部样本与 GPU 精度一致。

清微 RPU 采用"软件定义硬件"的可重构计算阵列：数据在计算单元间直接传递，省去指令分发与分支预测等控制开销，兼顾高能效与高面积效率，并支持运行时动态重构，将不同算法的数据流图实时映射至硬件。这一架构与 FlagOS 基于 Triton 的统一编译路线天然契合，使清微能以更低适配成本、更快迭代速度融入多芯生态。

曦望（Sunrise）

同样众智FlagOS与曦望（Sunrise）展开全方位的深度技术协同，依托曦望 S2 芯片与众智 FlagOS 系统软件生态，实现 DeepSeek-V4 Flash 深度适配与高效推理。

首先，从算子适配切入，DeepSeek V4 定制算子繁多类型庞杂，模型结构链路交织复杂度极高。曦望已高效适配FlagOS 核心组件 FlagTree 统一编译器及 FlagGems 算子库。基于 FlagTree 统一编译流程和 FlagGems 的高性能 Triton 算子集合，成功将 DeepSeek V4 模型部署于曦望智望 S2-X1-PCIE 计算卡上，实现架构原生兼容、算子无缝适配、推理持续稳跑、精度无损对齐，为后续 DeepSeek V4 落地交付奠定坚实基础。

其次，面向超大模型带来的多卡部署挑战，依托曦望自研通信库 PCCL 与 FlagOS 环境的深度融合，从底层重构模型权重分片与分组策略，通过多种张量并行方案灵活组合、自适应调度，在多机多卡集群环境下成功实现高效张量并行执行，大幅提升通信效率与计算资源利用率，为规模化部署扫清性能瓶颈。

开发者速用指南：

DeepSeek-V4系列模型多芯版本获取与部署

FlagOS技术栈为DeepSeek-V4系列新模型提供了用户开箱即用的多芯片 DeepSeek-V4-Flash版和 DeepSeek-V4-Pro版。在FlagOS的统一算子库FlagGems、统一编译器FlagTree及基于FlagScale的多芯片适配支持下，海光、沐曦、华为、摩尔线程（FP8）、昆仑芯、平头哥、天数、英伟达（FP8）、清微、曦望等10款芯片，已经完成 DeepSeek-V4系列模型的跨芯适配及验证。

用户在多芯片上部署DeepSeek-V4时，通常会先遇到几大挑战：算子缺失或不匹配，分布式部署多卡多节点配置复杂，模型格式与精度适配麻烦。DeepSeek-V4的原始权重多为量化格式（如FP8），而各芯片对低精度数据类型的支持方式不一，权重转换和适配过程繁琐且容易出错。为了解决上述“开箱”后立刻就会碰到的性能与部署难题，FlagOS官方提供了专门的适配仓库，一键化解这些难题：

一键启用高性能算子库：通过设置环境变量 USE_FLAGGEMS=1，即可自动切换至FlagGems中为DeepSeek-V4深度优化的算子实现，无需手动逐算子替换，大幅提升多款国产芯片上的开箱可用性。
算法优化多卡通信：当模型并行数（MP）大于配置组数（o_groups）时，通过设置 USE_OGROUPS_COMM=1，自动启用分组投影独立通信组功能，精准解决o_groups张量切分数量限制。该仓库还提供了单机8卡、双机16卡的完整运行脚本（run_mp8.sh、run_node_0.sh 等），开箱即用。
自动化权重转换工具：内置纯PyTorch实现的 convert_weight.py 脚本，能够直接将FP8/FP4量化权重可靠地反量化为BF16格式，解决了权重迁移到各种国产芯片上的首要兼容性问题。
量化加速功能：为MoE专家引入INT8逐通道对称量化，支持W8A8推理，能够进一步降低机器资源需求，提升性能与效率，并同时提供对应的量化配置和参数转换脚本方便用户使用。

仓库地址GitHub：https://github.com/flagos-ai/DeepSeek-V4-FlagOS

方式一：FlagOS 安装部署

安装FlagOS算子库


# Install base dependencies
pip install -r requirements.txt
pip install flag-gems==5.0.2

官方仓库：

https://github.com/flagos-ai/FlagGems

安装FlagOS编译器

# 安装命令以英伟达平台为例：
python3 -m pip uninstall -y triton
python3 -m pip install flagtree===0.5.0 --index-url=https://resource.flagos.net/repository/flagos-pypi-hosted/simple

官方仓库：

https://github.com/flagos-ai/flagtree

使用 DeepSeek-V4-FlagOS 代码仓库进行部署

官方仓库：

https://github.com/flagos-ai/DeepSeek-V4-FlagOS

单机（8卡）

可使用如下命令，或者直接运行 bash run_mp8.sh


export USE_FLAGGEMS=1 #开启加速
torchrun --nproc-per-node 8 generate.py --max-new-tokens 64 --ckpt-path /path/to/model_bf16_mp8 --config config_from_bf16.json --input-file prompt.txt

双机（16卡）

Node 0：

可使用如下命令，或者直接在Node 0上运行bash run_node_0.sh

export NCCL_SOCKET_IFNAME=eth0
export NCCL_IB_DISABLE=1
export USE_FLAGGEMS=1
export USE_OGROUPS_COMM=1

torchrun --nnodes=2 --nproc_per_node=8 --node_rank=0 --master_addr=<master_ip> --master_port=29500 generate.py --ckpt-path /path/to/model_bf16_mp16 --config config_from_bf16.json --input-file prompt.txt --max-new-tokens 64

Node 1：

可使用如下命令，或者直接在Node 1上运行bash run_node_1.sh

export NCCL_SOCKET_IFNAME=eth0
export NCCL_IB_DISABLE=1
export USE_FLAGGEMS=1
export USE_OGROUPS_COMM=1

torchrun --nnodes=2 --nproc_per_node=8 --node_rank=1 --master_addr=<master_ip> --master_port=29500 generate.py --ckpt-path /path/to/model_bf16_mp16 --config config_from_bf16.json --input-file prompt.txt --max-new-tokens 64

方式二：模型镜像直接下载

用户可以直接拉取在 FlagRelease 上发布的迁移后的模型文件、代码和镜像。以下是迁移适配后的几种 AI 芯片的模型版本，开箱即用、无需迁移。

魔搭平台

HuggingFace 平台

三大技术突破：

为什么对支持多种AI芯片十分重要

围绕 DeepSeek-V4系列模型的多芯适配，此次 FlagOS 系统软件技术栈突破了三大关键技术：FlagGems 全算子替代（实现多芯片统一适配）、为o-group采用独立张量并行策略解锁更多低显存场景、以及 “FP4+FP8混合精度” 的原生权重到 FP8/BF16 的精度路径转换。当下国内大规模部署的AI芯片，都没有FP4的支持。英伟达也只有在Blackwell及之后的高端芯片才支持FP4。这三项关键技术，使得 DeepSeek-V4 能够在当前各种厂商的主流 AI 芯片上稳定运行，而非仅限于支持 FP4 和大显存的少数高端AI加速卡。

突破一：FlagGems 提供支持10种以上芯片的全算子替代——真正意义上的跨芯方案

本次 DeepSeek-V4系列模型的适配，FlagGems 实现了模型推理链路中全部算子的替代。这意味着什么？

彻底脱离 CUDA 算子依赖：DeepSeek-V4模型的 MoE 专家调度、Attention 计算、RMSNorm、TopK 路由等全部核心计算模块，均由 FlagGems 基于 Triton/Triton-TLE语言重新实现，不调用任何 cuDNN/cuBLAS 等 NVIDIA 私有库。
无需芯片厂商逐一适配：传统模式下，每款新模型上线，芯片厂商需要投入工程团队做算子适配。现在通过 FlagGems + FlagTree 编译器的组合，新模型的算子可以直接编译到多款芯片后端，芯片厂商不需要做任何额外工作。
新算子即时可用：DeepSeek-V4模型引入的新计算模式（如 o-group 相关的分组路由机制），FlagGems 已经实现了对应的新算子，并通过 FlagTree 编译器统一编译到所有支持的芯片后端。

FlagGems 作为全球最大的 Triton 单一算子库，已拥有超过500 个大模型常用算子，并已正式进入 PyTorch 基金会生态合作项目。在 40 个主流模型上，推理任务算子覆盖度达到 90%~100%，完整支持 DeepSeek-V4的全部计算需求。

突破二：为o-group采用独立并行策略——解除张量并行最多单机8卡限制

DeepSeek-V4系列模型为了进一步降低计算开销，采用了分组输出投影技术（Grouped Output Projection），配置为o_group=8，这导致在传统的张量并行时候，最多切8份。而当前一些主流国产芯片的单卡显存为 32GB 或 64GB，尤其在BF16格式情况下，需要张量并行大于8份才能放的下。为了解除这个限制，FlagOS专门针对o_groups进行了单独张量并行策略设计和实现，确保o_goups切分不超过8份的前提下，能够让模型其他部分还采用经典的张量并行策略，并且实现超过8份的切分。通过不同的张量并行策略组合，能够实现多于8台设备的张量并行运行。

FlagOS 团队对o_group张量并行改动有：

独立的并行策略：独立于已有的张量并行通信组之外，为o-group单独构建所需要的张量并行通信组，确保其他模型结构张量并行切分超过8的情况下，o-group的张量并行在8以内。
参数转换调整：对o_group相关的参数，也进行了对应单独的张量并行切分处理，以确保在新的独立张量并行策略下，也能够被正确加载。
覆盖面扩展：这一优化能够将 DeepSeek-V4在单独采用张量并行策略下，将可运行芯片范围从 "仅限单机 80GB以上显存的个别高端卡" 扩展到 "多机64GB/32GB的更多主流国产芯片"，包括海光、沐曦、天数智芯等厂商的主力产品线。

突破三：从”FP4+FP8混合精度“ 到 BF16的精度转换——打通主流芯片的计算路径

DeepSeek-V4系列模型发布时首次采用 FP4+FP8混合精度，该精度只有在Blackwell及之后的英伟达最新硬件上才有支持，但当前所有国内非英伟达 AI 芯片都未能支持，只有摩尔线程原生支持了FP8，其余依然以BF16为主。

FlagOS 完成了从 FP4 到 BF16 的完整精度转换：

权重反量化：将 FP4 量化权重转换为 BF16 格式。这不是简单的类型转换，而是需要根据 DeepSeek 的量化方案进行逆量化计算，确保数值精度。
计算路径重建：FP4 和 BF16 在底层计算上有本质差异——FP4 的动态范围更窄，累加精度、溢出处理策略均不同。FlagOS 对推理链路中的 GEMM、Attention、MoE 路由等关键计算节点逐一适配了 BF16 路径。
精度对齐验证：经过标准评测集验证，BF16 版本与 FP4 原生版本在核心能力指标上保持对齐，确保精度转换不引入业务层面的效果损失。

本次，FlagOS推出了FP8和BF16两种适配版本，让 DeepSeek-V4不再是"只有最新 NVIDIA 卡才能跑"的模型，而是真正可以部署在 FP8 及 BF16 生态的主流国产芯片上。

FlagGems开源高性能新算子全面支持

DeepSeek-V4系列模型

本次新发布的DeepSeek-V4模型共有大约67个算子，FlagGems已全量支持。新支持了Act Quant、hc_split_sinkhorn、FP8 MatMul、Sparse Attention、Hadamard Transform等5个新算子，实现了对DeepSeek-V4的全面支持，也为跨芯适配打下重要基础。

FlagGems高性能算子库的下载使用：

Gitcode：https://gitcode.com/flagos-ai/FlagGems/tags/v5.0.2
Gitee: https://gitee.com/flagos-ai/FlagGems/tree/v5.0.2
Github：https://github.com/flagos-ai/FlagGems/tree/v5.0.2

FlagGems 支持 DeepSeek-V4模型新算子的性能对比：

为了支持更多AI芯片的使用，FlagOS对DeepSeek-V4模型中使用的新算子使用Triton语言进行重新实现，基于FlagTree统一编译器，性能全部超过原生性能。（以下数据是针对DeepSeek-V4-Flash的测试）

基于C++ Wrapper技术，推理性能全面提升

C++ Wrapper技术是FlagOS技术社区专门为提升基于Triton语言的算子内核调用效率而打造的技术。目前已经支持了该技术的芯片包括华为昇腾、寒武纪、摩尔线程、平头哥真武、及英伟达等。使用了C++ Wrapper技术，在普通的Transformers框架下，可以显著提升使用了Triton算子的模型的端到端效率，实现跨芯普适、和高效推理的双重目标。通过端到端效果评测（英伟达 H20，DeepSeek-V4-Flash FP8），FlagGems算子库的C++ Wrapper + Triton实现，端到端吞吐量达到70.7 tokens/s，比TileLang算子（DeepSeek原版）高 12.24%，比传统Python Wrapper + Triton版本高 40.39%。

开发者极致体验：

"发布即多芯" + "极简部署"

核心能力与原生版本对齐

经 GPQA_Diamond、AIME等权威评测集验证，FlagOS 适配后的 DeepSeek-V4-Flash 和 DeepSeek-V4-Pro，在语言理解、复杂推理、代码生成、数学计算等核心能力上，与 CUDA 原生版本对齐，可放心应用于金融、教育、政企服务、代码开发等场景，无需担心适配导致业务效果折损。DeepSeek-V4-Pro 1.6T万亿参数模型已经在摩尔线程、海光、沐曦、华为昇腾四款国产芯片完成了基于FlagOS技术栈的适配，并通过了初验。考虑到国产芯片当前的精度支持和显存大小，我们推出了int8的适配版本，更方便用户的实际部署使用。

2. 极简部署：开箱即用，底层优化无感知

FlagOS 将核心算子库、编译器等技术组件前置内置到 DeepSeek-V4代码框架中，开发者加载模型时，底层优化代码自动生效，无需手动添加任何 FlagOS 初始化代码。同时，基于 FlagRelease 直接提供了多芯片版本的 DeepSeek-V4-FlagOS 模型版本，标准化 Docker 镜像 + 一键加速命令，解决了开发者最头疼的环境配置、效果对齐、性能优化等问题。

FlagOS 2.0 技术底座：

从大模型到智能体时代的全栈升级

DeepSeek-V4系列模型的三重突破，依托的是FlagOS 2.0统一多芯片系统软件栈的全链路能力。从算子层、编译层、框架层到工具层，全链路为大模型跨芯适配提供技术支撑，将原本数周的适配周期缩短至数天，真正实现极速落地。

高性能算子库 FlagGems：核心算子深度适配，释放硬件算力

FlagGems 作为 FlagOS 核心的高性能通用大模型算子库，基于 Triton 语言实现，针对 DeepSeek-V4推理链路的核心算子进行了深度适配与优化，包括 MoE 专家调度、Attention 计算、RMSNorm 等关键计算模块，同时原生支持 NVIDIA、摩尔线程、沐曦、清微智能、天数、曦望等接近 20 家 AI 芯片。

2. 统一 AI 编译器 FlagTree：一次编写，多芯编译

FlagTree 是 FlagOS 面向多 AI 芯片后端的统一编译器，基于 Triton 深度定制，可将 DeepSeek-V4的核心算子编译为英伟达、摩尔线程等十多种不同 AI 芯片后端可识别的指令，彻底解决不同芯片编译器生态割裂的问题，大幅降低算子跨芯片适配的开发成本。

3. 模型跨芯迁移发布工具 FlagRelease：半自动实现模型跨芯迁移与版本发布

依托 FlagOS 全栈技术能力，FlagRelease 已完成 DeepSeek-V4在多种芯片上的模型迁移、精度对齐与版本发布，覆盖 HuggingFace、魔搭等开源社区平台。开发者可直接下载使用，无需自行迁移。截至本文发布，FlagRelease 已发布覆盖 10+ 家芯片厂商、12+ 款硬件、70+ 个开源模型实例的跨芯适配版本。

4. 统一多芯片接入插件 vLLM-plugin-FL：无缝兼容原生使用习惯

vLLM-plugin-FL 是 FlagOS 为 vLLM 推理服务框架打造的专属插件，基于 FlagOS 统一多芯片后端开发，在完全不改变 vLLM 原生接口与用户使用习惯的前提下，实现多芯片推理部署。目前 vLLM-plugin-FL 已经支持了清微、摩尔线程、海光、沐曦、平头哥真武、天数智芯、昆仑芯、华为、英伟达等多家芯片。

开源共建：

FlagOS 持续做开发者的"跨芯适配后盾"

当下，"异构算力协同、大模型普惠落地"已成为全球开源开发者社区的核心热点，打破硬件生态隔离、让大模型在不同算力平台高效低成本运行，是无数开发者的核心诉求。FlagOS 从诞生之初就将开源开放、众智共建刻入技术基因，始终以开发者为中心，通过全栈开源的统一系统软件栈，把复杂的"M×N"硬件适配问题降维为"M+N"，做每一位开发者最可靠的跨芯适配后盾。

全栈开源无保留，把技术主动权交给开发者

目前，FlagOS 已形成完整的开源技术体系，所有核心组件均已开源在 GitHub，同时开放了数十款最新的主流基础大模型、十多款 AI 芯片的适配方案与最佳实践，开发者可自由获取、深度定制：

四大核心技术库： FlagGems 通用大模型算子库、FlagTree 统一 AI 编译器、FlagScale 训练推理并行框架、FlagCX 统一通信库，覆盖算子开发、编译优化、并行计算、跨芯片通信全链路；
三大开源工具平台： FlagRelease 大模型自动迁移发版平台、KernelGen 算子自动生成工具、FlagPerf 多芯片评测工具，提供从模型适配、性能评测到工程落地的一站式工具链；
全场景扩展生态： vLLM-plugin-FL、Megatron-LM-FL、TransformerEngine-FL 等框架增强组件，以及 FlagOS-Robo 具身智能工具包，覆盖大模型训练、推理、应用全场景。

多路径参与共建，全层级开发者均可入局

我们为不同技术方向、不同经验层级的开发者，设计了低门槛、多路径的共建方式，无论你是 AI 开发新手，还是深耕系统软件的资深专家，都能在 FlagOS 社区找到自己的位置。

新手友好型参与： 可在对应仓库提交 Issue 反馈 bug、优化建议，或是补充完善文档、撰写入门教程与最佳实践，也可参与社区技术交流、分享使用经验，零门槛开启开源之旅；（社区文档参考https://docs.flagos.io/en/latest/）
深度技术共建： 开发者可直接参与 FlagGems 算子开发与优化（新增算子 / 性能调优 / 新芯片后端支持）、KernelGen 算子生成流程增强、FlagTree 编译器后端扩展等核心模块，与社区核心开发者一起推动技术演进。
生态工具贡献： 开发者可基于 FlagOS Skills 开发面向国产芯片的 AI Agent 专业技能，帮助更多开发者通过自然语言完成芯片适配、模型部署等操作。

关于众智FlagOS社区

为解决不同 AI 芯片大规模落地应用，北京智源研究院联合众多科研机构、芯片企业、系统厂商、算法和软件相关单位等国内外机构共同发起并创立了众智 FlagOS 社区。社区成员包括北京智源研究院、中科院计算所、中科加禾、安谋科技、北京大学、北京师范大学、百度飞桨、硅基流动、寒武纪、海光信息、华为、基流科技、摩尔线程、沐曦股份、澎峰科技、清微智能、天数智芯、先进编译实验室、移动研究院、中国矿业大学(北京)等多家在 FlagOS 软件栈研发中做出卓越贡献的单位。

FlagOS 是一款专为异构 AI 芯片打造的开源、统一系统软件栈，支持 AI 模型一次开发即可无缝移植至各类硬件平台，大幅降低迁移与适配成本。它包括大型算子库、统一AI编译器、并行训推框架、统一通信库等核心开源项目，致力于构建「模型-系统-芯片」三层贯通的开放技术生态，通过“一次开发跨芯迁移”释放硬件计算潜力，打破不同芯片软件栈之间生态隔离。

官网：https://flagos.io

GitHub 项目地址：https://github.com/flagos-ai

GitCode 项目地址：https://gitcode.com/flagos-ai

SkillHub: https://skillhub.flagos.io

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

C/C++内存管理

代码段（Text Segment）内容：编译后的机器指令（如函数 main()、printf() 的代码）。属性：只读（防止程序意外修改指令），可被多个进程共享（节省内存）。数据段（Data Segment）初始化数据：显式初始化的全局/静态变量。代码语言：javascriptAI代码解释代码语言：javascriptAI代码解释堆（Heap）动态内存：通过分配，需。代码语言：javascr

AtomGit开源社区

20260501_陈哲凡_研途灵伴项目周报3_管理后台与饮食纵切收口

本周重点推进管理后台业务功能与饮食模块纵切链路。完成管理后台从脚手架到真实业务页面的升级，实现题集、菜单、知识建议等8个模块的CRUD功能，统一交互模式与接口规范。同步完善后端/admin接口，强化字段校验与删除保护机制。打通饮食全链路，实现基于用户状态的智能推荐系统，采用规则评分+AI生成的双保险策略。特别注重前后端字段对齐，确保联调效率。技术栈主要使用FastAPI、React+TS、Ant