使用llama.cpp运行模型unsloth/Qwen3.6-35B-A3B-UD-Q4_K_M.gguf 速度大约5.5 token/s

天马行空skywalk

474人浏览 · 2026-05-25 11:27:39

天马行空skywalk · 2026-05-25 11:27:39 发布

下载llama.cpp

repo：github.com

到这个页面，下载适合的程序，比如windows10下，使用了这个：

下载模型

寻找模型

到modelscopy下载模型，首先我们要确定模型，是这款Qwen3.6-35B-A3B-UD-Q4_K_M.gguf

但是直接查这个名字未必能查到，所以先要查Qwen3.6-35B-A3B，在modelscopy官网查：搜索 · 魔搭社区

查到这里：

进入unsloth子页面，发现gguf有好多模型，我们今天用这一款：Qwen3.6-35B-A3B-UD-Q4_K_M.gguf

安装modelscopy

pip install modelscope

下载模型

modelscope download --model unsloth/Qwen3.6-35B-A3B-GGUF Qwen3.6-35B-A3B-UD-Q4_K_M.gguf --local_dir ./

下载完毕

G:\ai\models>dir
Volume in drive G is AI
Volume Serial Number is 0619-E3AB

Directory of G:\ai\models

05/25/2026 09:36 AM <DIR> .
05/25/2026 09:36 AM <DIR> ..
05/25/2026 09:36 AM 113 .msc
05/25/2026 09:04 AM <DIR> ._____temp
05/25/2026 09:36 AM 22,134,528,992 Qwen3.6-35B-A3B-UD-Q4_K_M.gguf
2 File(s) 22,134,529,105 bytes
3 Dir(s) 123,231,006,720 bytes free

启动llama服务

启动命令

普通的启动命令

llama-server.exe -m g:\ai\models\Qwen3.6-35B-A3B-UD-Q4_K_M.gguf

当前速度5 token/s

llama-server.exe -m g:\ai\models\Qwen3.6-35B-A3B-UD-Q4_K_M.gguf -ngl 99 --n-cpu-moe 32 --flash-attn on -c 65536 --cache-type-k q4_0 -np 1

内存少了5G，速度略有增加

llama-server.exe -m g:\ai\models\Qwen3.6-35B-A3B-UD-Q4_K_M.gguf -ngl 99 --n-cpu-moe 32 --flash-attn on -c 65536 --cache-type-k q4_0 -np 1 --cache-ram 0

最后用的4并发

llama-server.exe -m g:\ai\models\Qwen3.6-35B-A3B-UD-Q4_K_M.gguf -ngl 99 --n-cpu-moe 32 --flash-attn on -c 65536 --cache-type-k q4_0 -np 4 --cache-ram 0

在2个任务同时进行的情况下，可以达到7.3 token/s

参数含义

llama-server.exe -m g:\ai\models\Qwen3.6-35B-A3B-UD-Q4_K_M.gguf -ngl 99 --n-cpu-moe 32 --flash-attn on -c 65536 --cache-type-k q4_0 -np 4 --cache-ram 0 --tools all

以下是针对 llama-server.exe 命令中各参数的详细解读，结合 ‌Qwen3.6-35B-A3B‌ 模型和推理优化需求进行说明：

‌1. 基础模型加载‌

‌-m g:\ai\models\Qwen3.6-35B-A3B-UD-Q4_K_M.gguf‌
- ‌作用‌：指定模型文件路径。
- ‌细节‌：
  - 文件格式为 .gguf（GGML 量化格式），支持高效推理。
  - Qwen3.6-35B-A3B 是阿里云的 ‌350亿参数混合专家（MoE）模型‌，A3B 可能表示架构优化版本。
  - UD-Q4_K_M 表明模型经过 ‌4-bit 量化‌（Q4），键（Key）和值（Value）使用 q4_0 量化类型，显著减少内存占用。

‌2. 模型架构与并行配置‌

‌-ngl 99‌
- ‌作用‌：设置 ‌GPU 层数（Number of GPU Layers）‌。
- ‌细节‌：
  - 99 表示将模型的前 99 层加载到 GPU（若模型总层数 ≥99）。
  - 剩余层（如注意力层、输出层）可能在 CPU 上运行（需结合 --n-cpu-moe 配置）。
  - ‌适用场景‌：多 GPU 或 GPU 内存不足时，通过分层卸载平衡负载。
‌--n-cpu-moe 32‌
- ‌作用‌：分配 ‌32 个 CPU 线程处理 MoE（混合专家）路由‌。
- ‌细节‌：
  - MoE 模型需动态选择专家（Expert）处理输入，此参数控制路由计算的并行度。
  - 数值需 ≤ 物理 CPU 核心数（如 64 核 CPU 可设为 32-64）。
  - ‌性能影响‌：线程数过高可能导致上下文切换开销，需实测调优。

‌3. 推理加速优化‌

‌--flash-attn on‌
- ‌作用‌：启用 ‌Flash Attention‌ 优化。
- ‌细节‌：
  - 通过算法优化减少注意力计算的内存访问次数，显著提升速度（尤其长序列）。
  - ‌硬件要求‌：需支持 Tensor Cores 的 GPU（如 NVIDIA A100/H100）。
  - ‌兼容性‌：若 GPU 不支持，可能自动回退到标准注意力机制。
‌-c 65536‌
- ‌作用‌：设置 ‌上下文窗口大小（Context Length）‌ 为 65,536 tokens。
- ‌细节‌：
  - 决定模型能处理的最大输入/输出序列长度（如长文档摘要、多轮对话）。
  - ‌内存影响‌：窗口越大，KV 缓存占用越高（需配合 --cache-type-k 和 --cache-ram 调整）。
  - ‌限制‌：实际可用窗口可能受模型架构和硬件限制（如 35B 模型可能支持 ≤32K tokens）。

‌4. 缓存与量化配置‌

‌--cache-type-k q4_0‌
- ‌作用‌：指定键（Key）的缓存量化类型为 ‌4-bit 量化的 q4_0 格式‌。
- ‌细节‌：
  - q4_0 是 GGML 量化的一种，牺牲少量精度换取内存节省（通常压缩率 75%）。
  - 仅量化 Key（不量化 Value），平衡速度与质量（部分实现可能同时量化 Value）。
  - ‌适用场景‌：内存受限但需处理长序列时。
‌--cache-ram 0‌
- ‌作用‌：不限制 ‌系统内存（RAM）用于缓存的大小‌。
- ‌细节‌：
  - 缓存主要用于存储 KV 缓存和中间结果，0 表示自动分配（可能占用全部可用内存）。
  - ‌风险‌：若系统内存不足，可能导致 OOM（需监控内存使用）。
  - ‌替代方案‌：可设为固定值（如 --cache-ram 16000000000 限制为 16GB）。

‌5. 多进程与工具集成‌

‌-np 4‌
- ‌作用‌：启动 ‌4 个推理进程‌（Number of Processes）。
- ‌细节‌：
  - 多进程可并行处理多个请求，提升吞吐量（尤其高并发场景）。
  - 每个进程独立加载模型，需确保总内存足够（35B 模型 ×4 进程可能需 >100GB 内存）。
  - ‌适用场景‌：服务化部署（如 API 服务）。
‌--tools‌
- ‌作用‌：启用 ‌工具调用能力‌（如函数调用、外部 API 交互）。
- ‌细节‌：
  - 允许模型通过工具扩展功能（如查询数据库、调用计算器）。
  - 需配合工具定义文件（如 tools.json）使用，具体实现依赖框架版本。
  - ‌典型场景‌：智能体（Agent）应用（如 AutoGPT、BabyAGI）。

‌参数组合建议‌

‌内存优化配置‌（低显存 GPU）：
bash

llama-server.exe -m g:\ai\models\Qwen3.6-35B-A3B-UD-Q4_K_M.gguf -ngl 64 --n-cpu-moe 16 --flash-attn on -c 32768 --cache-type-k q4_0 -np 2 --cache-ram 8000000000
- 减少 GPU 层数（-ngl 64）、缩小上下文窗口（-c 32768）、限制缓存内存（8GB）。
‌高性能配置‌（多 GPU + 高显存）：
bash

llama-server.exe -m g:\ai\models\Qwen3.6-35B-A3B-UD-Q4_K_M.gguf -ngl 120 --n-cpu-moe 32 --flash-attn on -c 65536 --cache-type-k q4_0 -np 4 --cache-ram 0
- 最大化 GPU 利用率（-ngl 120）、启用 Flash Attention、不限制缓存内存。

‌注意事项‌

‌硬件匹配‌：确保 GPU 支持 Flash Attention（如 NVIDIA Ampere 架构及以上）。
‌监控资源‌：使用 nvidia-smi（GPU）和 htop（CPU）监控负载，避免瓶颈。
‌框架版本‌：部分参数（如 --tools）可能需特定版本的 llama-server 支持。

通过调整这些参数，可在 ‌推理速度、内存占用、模型质量‌ 之间找到最佳平衡点。

测试一下，问它个问题：你擅长什么？

Reasoning

Toggle content

我擅长多个方向的能力，主要集中在以下几个方面：

复杂推理与逻辑分析：能拆解数学、科学、商业及日常场景中的复杂问题，提供严谨、可验证的分析路径。
全栈代码与开发支持：支持多语言代码生成、理解、调试与重构，可协助完成从脚本到完整项目架构的开发任务。
超长上下文处理：支持 256K 上下文窗口，能一次性阅读并精准定位长篇文档、报表或日志中的关键信息。
多语言与跨文化交互：原生支持全球 100 多种语言，满足国际化沟通、翻译与本地化需求。
智能体与自动化工作流：可自主规划多步任务，结合搜索、代码执行与工具调用，独立完成复杂流程。
专业领域知识增强：在医疗、法律、金融、教育等垂直领域具备深度知识对齐，可提供合规、实用且结构清晰的建议。

如果你有具体的任务、想测试某项能力，或需要我协助完成某类工作，直接告诉我即可，我会按需为你高效处理。

Qwen3.635B-A3BUDQ4_K_M.gguf

ReadingGeneration

938 tokens2min 50s5.50 t/s

可以看到答案还是可以的。

耗时

总共耗时约3分钟，可以一用。主要是cpu和显卡都较差，

CPU

Intel(R) Xeon(R) CPU E5-2643 v2 @ 3.50GHz

   Base speed:   3.50 GHz
   Sockets:   2
   Cores:   12
   Logical processors:   24
   Virtualization:   Enabled
   L1 cache:   768 KB
   L2 cache:   3.0 MB
   L3 cache:   50.0 MB

   Utilization   32%
   Speed   3.58 GHz
   Up time   2:21:49:31
   Processes   451
   Threads   8502
   Handles   251410

GPU 0

NVIDIA Quadro K4200

   Driver version:   30.0.14.7514
   Driver date:   6/10/2024
   DirectX version:   12 (FL 11.0)
   Physical location:   PCI bus 5, device 0, function 0

   Utilization   6%
   Dedicated GPU memory   0.8/4.0 GB
   Shared GPU memory   0.2/32.0 GB
   GPU Memory   1.0/36.0 GB

总体llama.cpp配这款模型，32G的主机配老显卡，都可以一战！

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

祁木 CAD Translator 工程图纸本地化实战指南

摘要：外贸工程和设计院国际项目面临的最大挑战之一是CAD图纸翻译，传统人工翻译成本高、格式易错乱。现代解决方案通过ODA底层解析和DeepSeek大模型技术，实现源文件级精准翻译，保留图层和属性，避免格式转换损耗。自动化工具支持批量处理万级文件，生成审核报告，将成本降至0.1元/页，节省90%以上费用和大量后期修复时间。企业可先试用免费额度验证效果，再规模化部署，实现工程设计工作流的数字化升级，突