【昇腾实战派】vLLM-ascend知识地图
·
"昇腾实战派"知识地图 — vLLM-ascend
← 返回系列总目录 | 覆盖 32 篇文章。
部署指导
- 【vLLM常见模型服务化部署样例】Qwen2.5 7B部署样例 — 2025-11-17
- 【vLLM-环境部署指导】部署指导汇总 — 2025-11-29
- 【vLLM-环境部署指导】VLLM Ascend特性开关梳理 — 2025-12-01
- 【vLLM-环境部署指导】aisbench精度性能环境部署验证 — 2025-12-30
- 昇腾NPU部署vLLM常见问题与调试指南 — 2026-05-26
DeepSeek 模型部署
- DeepSeek-V3-w8a8模型基于vLLM的PD分离部署 — 2025-10-31
- 基于vllm部署DeepSeek-R1-0528-W8A8 — 2025-11-03
- vLLM-ascend系列/DeepSeek-R1在vLLM上的性能优化【2025-06-19】 — 2025-12-03
- vLLM-ascend系列/DeepSeek-R1在vLLM上的精度问题定位【2025-06-19】 — 2025-12-03
- vllm-ascend部署DeepSeek-V3.2-EXP遇到custom_ops无x86算子包解决办法 — 2025-12-30
- vllm-ascend四机拉起bf16 DeepSeek — 2025-12-30
模型特性适配
- 【vLLM-模型特性适配】vllm-Qwen3稠密模型双流并行 — 2025-12-01
- 【vLLM-模型特性适配】GLM4.5 GLM4.6 w8a8权重量化 — 2025-12-30
- 【vLLM-模型特性适配】vllm-ascend开发之FlashComm2 — 2025-12-30
- 【vLLM-模型特性适配】vllm-ascend开发之Rope适配 — 2025-12-30
- 【vLLM-框架及特性学习】vllm-ascend torch.compile 的原理与使用 — 2025-12-30
- 【vLLM-模型特性适配】 MiniMax模型特性分析 — 2025-12-30
- vllm-ascend 通信优化:SP/FlashComm1/FlashComm2 — 2026-05-26
- 【vLLM-模型特性适配】vllm-Qwen3稠密模型双流并行 — 2026-05-26
性能优化
- 【vLLM-性能调优】内存显存分析归纳 — 2025-12-01
- 【vLLM-性能调优】vLLM场景下Profiling使用指导与能力汇总 — 2025-12-30
- ACLGraph在vLLM-Ascend框架下的实践与性能分析:Qwen3-8B案例研究 — 2026/1/17
- vllm推理框架开启eagle-3优化Qwen3-32B模型的推理性能 — 2026-04-10
- 长序列推理的显存优化:静态图框架下的Chunked Prefill实现方案 — 2026-03-31
- vLLM-Ascend高并发场景下Qwen3-32B-W8A8性能优化实践 — 2026-04-28
- vLLM-Ascend Qwen3-VL-235B-A22B 单batch性能优化案例 — 2026-04-28
- 【vLLM-Ascend性能调优】基于Atlas 800I A3平台的GLM4.6性能优化实践 — 2026-05-26
通信优化
精度与问题排查
- Vllm-Ascend 模型精度对齐指南 — 2026-05-26
- vllm/vllm-ascend 多轮工具调用失败问题分析与解决 — 2026-05-26
Profiling 与架构分析
- 【vLLM-Ascend】基于PyTorch Profiler的性能数据采集实践 — 2026-05-26
- 【vLLM-Ascend】LLM Engine架构解析 — 2026-05-26
- 【vLLM-Ascend】ModelRunner架构解析 — 2026-05-26
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐
所有评论(0)