近日,上海人工智能实验室(上海AI实验室)升级并开源DeepLink多元算力混合推理技术方案,在此前仅支持多国产芯片的基础上,拓展NVIDIA 等芯片跨架构混合推理能力,满足多类推理场景需求。

为便于方案落地,上海AI实验室联合八家国产芯片厂商推出标准化推理镜像,开发者下载即可快速部署;开源上述方案核心技术——智能流量路由系统DLRouter,助力行业低成本构建高吞吐、低时延的异构推理服务。

与此同时,上海AI实验室联合多家单位起草的混合推理相关国家标准也已成功立项,将统一行业技术规范与落地范式,加速打造智能经济新形态。

DeepLink混合推理方案:

https://github.com/DeepLink-org/DLRouter/blob/main/docs/infer_readme.md

三重推理模式并行,盘活存量国产新旧零散算力

当前行业多采用同构芯片集群部署业务,普遍存在算力利用率偏低、单芯片难以实现最优推理配比等难题。市场亟需标准化、开箱即用的跨硬件推理方案,破除架构壁垒、整合零散算力,通过异构协同提升推理效率、压降大模型算力成本。

为此,上海AI实验室牵头携手主流国产芯片共同建设DeepLink多元算力混合技术方案,整合下述三类互补部署模式,全方位覆盖产业落地需求。

  • 异构集群间混合调度支持多异构芯片推理集群的统一调度,如用户数据中心内有A、B、C三类国产芯片,在各集群上部署独立的推理服务,通过DLRouter感知各集群硬件配置,在整体服务网关层面实现推理任务在多集群间负载均衡调度,提升整体资源利用率;

  • 异构国产芯片混推:支持多款异构国产芯片的PD分离推理,如用户数据中心内有A、B两类国产芯片,结合芯片特定确定计算密集、访存密集等请求特征,完成算力节点最优匹配,实现Prefill阶段跑在A集群上,Decode阶段跑在B集群上。突破单卡性能瓶颈,提升异构芯片集群整体吞吐;

  • 国产+国外芯片混推:支持国产、国外芯片的PD分离推理,当前实际产业需求里已大量存在。因部分国产芯片采用DSA架构,硬件设计侧重堆叠张量算力,更适合用于Prefill大批量并行矩阵运算阶段。而Decode 阶段需要高频随机读写 KV 缓存,依赖大访存带宽,N卡的高规格HBM特性能更好处理Decode阶段任务。

本次开源DeepLink混推标准镜像覆盖:壁仞、海光、摩尔线程、沐曦、平头哥、昇腾、燧原、天数(按首字母排序)等8家厂商,支持开发者按需选用及下载,满足多类推理场景需求。

DLRouter开源:构筑异构推理智能流量调度引擎

作为DeepLink多元算力混合推理技术方案的核心技术底座之一,DLRouter 原生支持KV Cache 感知的精细化请求路由,可精准识别推理请求特征,智能分流至适配硬件集群;通过削减冗余请求、规避重复计算,实现分布式异构推理集群的动态负载均衡,显著提升全域算力资源利用率。

DLRouter 核心技术能力如下:

  • 异构硬件感知请求路由:针对大模型推理深度优化,依托各集群节点存量 KV Cache 、序列长度及推理阶段,将同会话上下文请求精准绑定对应节点,有效减少缓存重建开销。同时根据不同芯片的硬件特性,结合pd不同实例的计算密集、访存密集等资源需求特征,智能完成算力节点最优匹配。

  • 高速通信协同适配:深度联动DLSlime/Mooncake/Nixl高速通信库,兼容RDMA、TCP多路径传输,支持零拷贝、用户态协议栈与批量消息聚合,实现调度决策与高速通信无缝衔接。

  • PD分离智能分流机制:原生适配大模型Prefill-Decode分离推理架构,可将不同推理阶段任务分流至专属硬件节点池,实现算力错峰复用,大幅提升集群整体吞吐能力。

DLRouter仓库:https://github.com/DeepLink-org/DLRouter

依托底层流量调度架构,DLRouter可高效适配多元国产芯片,兼容主流大模型推理框架,既能满足AIGC、科学智能、具身仿真等高并发业务场景,也可为资源编排、智能调度提供标准化路由支撑。借助DLRouter,开发者可快速、低成本构建高吞吐、低时延的异构推理服务。

图片

DLRouter架构图

标准共建,聚力构筑国产统一推理新范式

当前,异构混合推理领域亟需统一的技术架构与行业标准,产业落地缺少规范指引。为此,上海AI实验室联合壁仞科技等多家单位牵头制定《人工智能 智算集群异构人工智能加速器混合推理技术要求》国家标准,目前该标准已正式立项,进入起草阶段。此举将补齐该领域的标准短板,统一行业技术规范与落地范式,推动产业从零散探索迈向标准化、规模化高质量发展。

图片

未来工作计划:从跨域训练,到跨域推理

面向未来,DeepLink 团队将与趋境科技围绕 Mooncake 开源项目展开深度合作,进一步强化 DeepLink 在异构混合推理中的缓存管理、负载协同与跨节点调度能力。作为面向大模型推理场景的开源推理基础设施项目,Mooncake 可在分布式推理集群中提供全局 KVCache 池化、前缀缓存复用等能力,与 DLRouter 的智能路由与分流能力形成互补,减少重复预填充开销,缓解负载倾斜问题,提升集群整体吞吐、缓存命中率与资源利用效率。

DeepLink 将联合伙伴单位探索跨地域、跨机房的跨域推理技术,进一步推动异构混推从单机房走向全域算力协同,并扩充芯片适配品类、优化调度性能,从而完善综合推理生态。以共建生态为基,持续推进相关能力的技术迭代与开源释放,从 AI 算力到 Token 工厂,夯实 AGI 时代国产算力底座,赋能智能计算产业高质量发展。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐