DeepLink多元算力混合推理方案升级并开源，携手行业加速打造Token经济新形态

DeepLink_2025

343人浏览 · 2026-06-10 15:21:49

DeepLink_2025 · 2026-06-10 15:21:49 发布

近日，上海人工智能实验室（上海AI实验室）升级并开源DeepLink多元算力混合推理技术方案，在此前仅支持多国产芯片的基础上，拓展NVIDIA 等芯片跨架构混合推理能力，满足多类推理场景需求。

为便于方案落地，上海AI实验室联合八家国产芯片厂商推出标准化推理镜像，开发者下载即可快速部署；开源上述方案核心技术——智能流量路由系统DLRouter，助力行业低成本构建高吞吐、低时延的异构推理服务。

与此同时，上海AI实验室联合多家单位起草的混合推理相关国家标准也已成功立项，将统一行业技术规范与落地范式，加速打造智能经济新形态。

DeepLink混合推理方案：

https://github.com/DeepLink-org/DLRouter/blob/main/docs/infer_readme.md

三重推理模式并行，盘活存量国产新旧零散算力

当前行业多采用同构芯片集群部署业务，普遍存在算力利用率偏低、单芯片难以实现最优推理配比等难题。市场亟需标准化、开箱即用的跨硬件推理方案，破除架构壁垒、整合零散算力，通过异构协同提升推理效率、压降大模型算力成本。

为此，上海AI实验室牵头携手主流国产芯片共同建设DeepLink多元算力混合推理技术方案，整合下述三类互补部署模式，全方位覆盖产业落地需求。

异构集群间混合调度：支持多异构芯片推理集群的统一调度，如用户数据中心内有A、B、C三类国产芯片，在各集群上部署独立的推理服务，通过DLRouter感知各集群硬件配置，在整体服务网关层面实现推理任务在多集群间负载均衡调度，提升整体资源利用率；

异构国产芯片混推：支持多款异构国产芯片的PD分离推理，如用户数据中心内有A、B两类国产芯片，结合芯片特定确定计算密集、访存密集等请求特征，完成算力节点最优匹配，实现Prefill阶段跑在A集群上，Decode阶段跑在B集群上。突破单卡性能瓶颈，提升异构芯片集群整体吞吐；

国产+国外芯片混推：支持国产、国外芯片的PD分离推理，当前实际产业需求里已大量存在。因部分国产芯片采用DSA架构，硬件设计侧重堆叠张量算力，更适合用于Prefill大批量并行矩阵运算阶段。而Decode 阶段需要高频随机读写 KV 缓存，依赖大访存带宽，N卡的高规格HBM特性能更好处理Decode阶段任务。

本次开源DeepLink混推标准镜像覆盖：壁仞、海光、摩尔线程、沐曦、平头哥、昇腾、燧原、天数（按首字母排序）等8家厂商，支持开发者按需选用及下载，满足多类推理场景需求。

DLRouter开源：构筑异构推理智能流量调度引擎

作为DeepLink多元算力混合推理技术方案的核心技术底座之一，DLRouter 原生支持KV Cache 感知的精细化请求路由，可精准识别推理请求特征，智能分流至适配硬件集群；通过削减冗余请求、规避重复计算，实现分布式异构推理集群的动态负载均衡，显著提升全域算力资源利用率。

DLRouter 核心技术能力如下：

异构硬件感知请求路由：针对大模型推理深度优化，依托各集群节点存量 KV Cache 、序列长度及推理阶段，将同会话上下文请求精准绑定对应节点，有效减少缓存重建开销。同时根据不同芯片的硬件特性，结合pd不同实例的计算密集、访存密集等资源需求特征，智能完成算力节点最优匹配。

高速通信协同适配：深度联动DLSlime/Mooncake/Nixl高速通信库，兼容RDMA、TCP多路径传输，支持零拷贝、用户态协议栈与批量消息聚合，实现调度决策与高速通信无缝衔接。
PD分离智能分流机制：原生适配大模型Prefill-Decode分离推理架构，可将不同推理阶段任务分流至专属硬件节点池，实现算力错峰复用，大幅提升集群整体吞吐能力。

DLRouter仓库：https://github.com/DeepLink-org/DLRouter

依托底层流量调度架构，DLRouter可高效适配多元国产芯片，兼容主流大模型推理框架，既能满足AIGC、科学智能、具身仿真等高并发业务场景，也可为资源编排、智能调度提供标准化路由支撑。借助DLRouter，开发者可快速、低成本构建高吞吐、低时延的异构推理服务。

DLRouter架构图

标准共建，聚力构筑国产统一推理新范式

当前，异构混合推理领域亟需统一的技术架构与行业标准，产业落地缺少规范指引。为此，上海AI实验室联合壁仞科技等多家单位牵头制定《人工智能智算集群异构人工智能加速器混合推理技术要求》国家标准，目前该标准已正式立项，进入起草阶段。此举将补齐该领域的标准短板，统一行业技术规范与落地范式，推动产业从零散探索迈向标准化、规模化高质量发展。

未来工作计划：从跨域训练，到跨域推理

面向未来，DeepLink 团队将与趋境科技围绕 Mooncake 开源项目展开深度合作，进一步强化 DeepLink 在异构混合推理中的缓存管理、负载协同与跨节点调度能力。作为面向大模型推理场景的开源推理基础设施项目，Mooncake 可在分布式推理集群中提供全局 KVCache 池化、前缀缓存复用等能力，与 DLRouter 的智能路由与分流能力形成互补，减少重复预填充开销，缓解负载倾斜问题，提升集群整体吞吐、缓存命中率与资源利用效率。

DeepLink 将联合伙伴单位探索跨地域、跨机房的跨域推理技术，进一步推动异构混推从单机房走向全域算力协同，并扩充芯片适配品类、优化调度性能，从而完善综合推理生态。以共建生态为基，持续推进相关能力的技术迭代与开源释放，从 AI 算力到 Token 工厂，夯实 AGI 时代国产算力底座，赋能智能计算产业高质量发展。