推理引擎系列（六）《vLLM-Ascend 大模型推理》

Shining0596

372人浏览 · 2026-03-20 16:33:12

Shining0596 · 2026-03-20 16:33:12 发布

vLLM+vLLM-ascend 整体规划和架构

本文主要讲解 vLLM-ascend 整体规划和架构以及核心技术内容。

vLLM+vLLM-ascend 整体规划和架构

社区演进概述

• 回顾社区在推理引擎领域的发展历程。
• 强调开源与性能并重的重要性。

华为昇腾技术路线

• 以开源为基础，与社区紧密配合，回馈社区。

昇腾推理架构解析

架构概览

• 华为MindIE推理引擎与业界开源生态引擎（如LLM、TensorFlow TGI、Triton）的对比。

计算架构层

• 对标 CUDA 的计算架构设计。

框架 Plugin 层

• 介绍 vLLM-Ascend 作为 vLLM 框架的 Plugin，实现硬件层适配。

vLLM 核心技术

1. Paged Attention

• 解决内存碎片与显存浪费问题，通过分页内存分配提高资源利用率。

2. Continuous Batching

• 与 Paged Attention 配套使用，提高 GPU/NPU 算力和显存利用率。

3. vLLM-Ascend 插件

• 硬件层适配，屏蔽 GPU 与 NPU 差异，支持无缝迁移。
• 降低二次开发门槛，支持模型零拷贝。

4. 安装与调用流程

5. ACL Graph与性能优化

（1）ACL Graph 概念

• 对标CUDA graph，实现一次捕获、多次重放，减少空泡。

（2）性能优化策略

• 提高系统并行度，减少无法并行部分。
• 介绍 vLLM 如何通过提高应用层系统并行度实现性能提升。

推理精度分析方法

精度分析工具

1. 介绍 OpenCampass、EvalScope、AISBench 等工具。

2. 强调通过跑数据集获取精度指标的方法。

常见问题与解决方案

• 介绍如何通过调整参数和模型设计提高精度。

Badcase 分析

1. 如何定位和分析 Badcase，找出精度不达标的原因。

2. 基于MSProbe工具的精度数据采集

推理性能分析方法

性能分析工具

使用 AISBench 进行性能测评：

• 配置随机数据集
• 指定模型和数据集
• 通过命令行启动性能测评

性能问题定位

性能数据分析

• op_statistic.csv
• trac_view.json

PD 分离场景调优

• PD 分离场景调优：通过解耦预填充（Prefill）与生成（Decode）阶段，突破 KV Cache 导致的吞吐瓶颈。
• 介绍如何通过调整 PD 配比和预期 TPS 来优化系统性能。

vLLM-ascend 推理部署流程

环境准备

• 使用npu-smi info 检查 NPU 驱动固件安装情况。
• 推荐使用 Docker 进行部署。

模型下载与安装

• 介绍如何通过 ModelScope 下载模型。
强调安装 vLLM 与 vLLM-Ascend 的步骤。

离线与在线推理

• 介绍离线与在线推理的使用方式与区别。
• 强调 vLLM-Ascend 与 vLLM 使用方式的一致性。

常用特性与入参介绍

• 环境变量
• 推理参数

注意事项

总结

本文系统介绍了vLLM-ascend推理引擎的整体架构与技术实现。重点包括：1）基于开源生态的昇腾推理架构，通过vLLM插件实现GPU/NPU硬件适配；2）核心技术创新如PagedAttention内存管理和ContinuousBatching批处理优化；3）性能优化策略包括ACLGraph应用和PD阶段解耦；4）完整的精度分析与性能评估方法体系；5）从环境准备到模型部署的全流程实践指南。该方案通过技术创新和工具链整合，显著提升了AI推理的效率和易用性，为昇腾生态提供了高性能的推理解决方案。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

面试题：PEFT-LoRA 及变种详解——LoRA 原理、矩阵初始化、作用矩阵、Rank/Alpha 选择、过拟合治理、rsLoRA/AdaLoRA/DoRA/LoRA-GA/QLoRA 全解析

10.1 QLoRA 的核心思路QLoRA 可以理解成“量化底座 + LoRA 训练”。它把预训练大模型以 4-bit 形式加载并冻结，只训练 LoRA 适配器。这样既保留了大模型能力，又显著降低了显存需求。10.2 QLoRA 为什么省显存？因为基础模型权重被量化成更低比特，并且不参与训练。训练时主要更新 LoRA 小矩阵，而不是整套大模型参数。QLoRA 还引入了 NF4、双重量化、分页优化器

AtomGit开源社区

智能体 Agent 完全拆解：架构、组件与实战指南

AtomGit开源社区

Bragi：一个能持续记住世界观的 AI 架空世界与互动故事引擎

Bragi 是一个面向幻想创作者、小说作者、TRPG 主持人和 AI 写作爱好者的开源项目。它不是简单地让 AI 生成一段小说，而是尝试解决 AI 长篇创作中最常见的问题：设定容易忘、人物容易崩、剧情越写越乱。Bragi 通过时间路径、空间路径、角色记录和事件管理，让一个架空世界可以持续扩展，并在后续剧情中保持基本一致性。