vLLM-Kunlun：高性能、易开发、全生态兼容的国产芯适配

百度智能云技术站

77人浏览 · 2026-03-18 11:02:33

百度智能云技术站 · 2026-03-18 11:02:33 发布

本文整理自 26 年 3 月 15 日 vLLM-Kunlun Meetup 北京站活动的同名主题演讲。

在公众号回复「vLLM-Kunlun」，可以获得此次 Meetup 上半场的 6 个演讲主题材料。

大家好，非常高兴能组织这次 meetup，来给大家介绍我们的 vLLM-Kunlun 项目。vLLM-Kunlun 从名字就能看出，是两个项目的结合，其核心目的是将百度自研的昆仑芯适配到 vLLM 这个主流的大模型推理框架上。

我们在开展昆仑芯首次适配工作时就在思考，一款国产芯片该如何实现商业化成功？

大家都知道，GPU 的生态体系庞大且成熟，不仅自身拥有性能优异的芯片和完善的基础库，众多开源项目也在无形中进一步巩固了它的行业地位。因此，在这样的行业背景下，国产芯片要想实现突破、站稳脚跟，就必须主动拥抱现有生态，而非另起炉灶打造新生态。这也是我们决定直接适配 vLLM 的核心动因，希望大家在进行大模型推理开发时，能够自然、便捷地使用昆仑芯。

解决了国产芯片的可运行问题后，又该用什么驱动力让大家选择这款芯片呢？在当下的市场环境中，核心驱动力有两个，一是国产芯片替代需求，二是降本需求。通过充分释放芯片的算力潜能，让客户和使用者能切实享受到超高的性价比。

目前，大模型技术仍在飞速发展，新模型、新的推理技术不断涌现，这也是 vLLM-Kunlun 项目持续迭代的原因。我们将项目开源至社区，也是希望能汇聚更多开发者共同完善这个框架，让它支持更多模型和推理技术，唯有如此，才能真正建立起国产芯片的行业生命力。

vLLM-Kunlun 项目地址：https://github.com/baidu/vLLM-Kunlun

这便是我们打造 vLLM-Kunlun Plugin 的核心驱动力：依托 vLLM 的生态体系，完成昆仑芯的深度适配，实现极致的性价比，同时让框架的开发与扩展更加便捷。这是我们当前整个项目的架构图。

接下来我将从三个方面，详细介绍我们的工作内容与成果。

首先是生态适配。为了做好 vLLM 的适配工作，早在 2024 年，我们就直接将 vLLM 部署到昆仑芯的运行环境中，逐一攻克各类兼容性问题。后续 vLLM 推出了 Device Plugin 抽象机制，这无疑为国产芯片的适配工作带来了极大便利。借助 Python EntryPoint 机制，结合 vLLM 引擎本身的抽象设计，我们仅需针对芯片的不同特性完成对应模块开发，就能实现芯片的适配，不仅大幅降低了调试难度，也显著减少了生态适配的工作量。在这一机制的支撑下，结合一系列专属优化处理，我们累计完成了：

50 + 主流大语言模型的推理适配，包括当下主流的 Qwen 系列、GLM 系列、Kimi 系列、Deepseek 系列等；
上层软件的原生兼容，包括后续会介绍的 playground、veRL 等强化学习框架。

第二个是实现极致性价比，我们投入了大量精力对 vLLM-Kunlun 项目的性能进行优化。性能优化主要围绕以下三个方面展开：

算子性能优化，这是提升整体性能的基础。GPU 领域已有诸多成熟项目，将通用矩阵乘法（GEMM）、注意力机制（Attention）、算子融合等操作的性能发挥到了极致。因此在 vLLM-Kunlun 项目中，我们也为大家提供了经过极致优化的昆仑芯专属算子。我们会精细打磨每个算子的算力利用率和带宽利用率，充分挖掘芯片的硬件资源潜力，开发者可直接调用这些优化后的算子。
框架功能适配，确保各类功能的完整性。为了充分释放芯片性能，框架层面开发了前缀缓存（prefix cache）、多令牌预测（MTP）支持、异步化调度等大量功能，我们对每一项功能都完成了完善适配，确保 vLLM 框架能精准调用对应算子、执行正确的业务逻辑。
硬件专属优化，结合昆仑芯的硬件特性，比如显存规格、底层算子的特殊融合策略等，调优出最优的运行配置和策略。

在这三方面优化的加持下，我们的方案在绝大多数模型的推理场景中，都展现出了优异的性能表现。

第三个方面，为了降低昆仑芯的开发门槛，我们还从易开发的角度，打造了一系列功能与工具链：

完善的算子开发工具链。新模型的落地往往伴随新算子的需求，我们提供了原生 API、Triton 等多种开发方式，同时配套了从编译、调试到性能分析（Profile）的全流程工具链，使用方式与行业主流标准基本兼容。
极简的项目抽象设计。我们认为，一款优秀的多芯片适配项目，对原有框架的扩充应尽可能下沉至底层。因此无论是基础库还是扩展的算子库，我们都在算子层完成兼容适配；同时借助 vLLM 的 OOT 机制，注册了大量自定义算子，这些算子的调用方式与上层框架原生兼容；而在模型运行器（model runner）、工作节点（worker）等上层模块，则尽可能减少修改，甚至做到无修改。
AI 辅助开发。人工智能技术为开发工作带来了极大便利，为了进一步降低大家理解和开发项目的难度，目前我们正持续沉淀大量 AI 开发技能包，进一步降低整体开发成本。

总而言之，我们从多个维度降低 vLLM-Kunlun 项目的开发难度，希望能让更多开发者参与到项目的共建中来。