下载llama.cpp

repo:github.com

到这个页面,下载适合的程序,比如windows10下,使用了这个:

下载模型

寻找模型

到modelscopy下载模型,首先我们要确定模型,是这款Qwen3.6-35B-A3B-UD-Q4_K_M.gguf

但是直接查这个名字未必能查到,所以先要查Qwen3.6-35B-A3B,在modelscopy官网查:搜索 · 魔搭社区 

查到这里:

进入unsloth子页面,发现gguf有好多模型,我们今天用这一款:Qwen3.6-35B-A3B-UD-Q4_K_M.gguf

安装modelscopy

pip install modelscope

下载模型

modelscope download --model unsloth/Qwen3.6-35B-A3B-GGUF Qwen3.6-35B-A3B-UD-Q4_K_M.gguf --local_dir ./

下载完毕

G:\ai\models>dir
 Volume in drive G is AI
 Volume Serial Number is 0619-E3AB

 Directory of G:\ai\models

05/25/2026  09:36 AM    <DIR>          .
05/25/2026  09:36 AM    <DIR>          ..
05/25/2026  09:36 AM               113 .msc
05/25/2026  09:04 AM    <DIR>          ._____temp
05/25/2026  09:36 AM    22,134,528,992 Qwen3.6-35B-A3B-UD-Q4_K_M.gguf
               2 File(s) 22,134,529,105 bytes
               3 Dir(s)  123,231,006,720 bytes free

启动llama服务

启动命令

普通的启动命令

llama-server.exe -m g:\ai\models\Qwen3.6-35B-A3B-UD-Q4_K_M.gguf

当前速度5 token/s

llama-server.exe -m g:\ai\models\Qwen3.6-35B-A3B-UD-Q4_K_M.gguf -ngl 99 --n-cpu-moe 32 --flash-attn on -c 65536 --cache-type-k q4_0 -np 1 

内存少了5G,速度略有增加

llama-server.exe -m g:\ai\models\Qwen3.6-35B-A3B-UD-Q4_K_M.gguf -ngl 99 --n-cpu-moe 32 --flash-attn on -c 65536 --cache-type-k q4_0 -np 1 --cache-ram 0

最后用的4并发

llama-server.exe -m g:\ai\models\Qwen3.6-35B-A3B-UD-Q4_K_M.gguf -ngl 99 --n-cpu-moe 32 --flash-attn on -c 65536 --cache-type-k q4_0 -np 4 --cache-ram 0

在2个任务同时进行的情况下,可以达到7.3 token/s 

参数含义

llama-server.exe -m g:\ai\models\Qwen3.6-35B-A3B-UD-Q4_K_M.gguf -ngl 99 --n-cpu-moe 32 --flash-attn on -c 65536 --cache-type-k q4_0 -np 4 --cache-ram 0 --tools all

以下是针对 llama-server.exe 命令中各参数的详细解读,结合 ‌Qwen3.6-35B-A3B‌ 模型和推理优化需求进行说明:


1. 基础模型加载

  • -m g:\ai\models\Qwen3.6-35B-A3B-UD-Q4_K_M.gguf
    • 作用‌:指定模型文件路径。
    • 细节‌:
      • 文件格式为 .gguf(GGML 量化格式),支持高效推理。
      • Qwen3.6-35B-A3B 是阿里云的 ‌350亿参数混合专家(MoE)模型‌,A3B 可能表示架构优化版本。
      • UD-Q4_K_M 表明模型经过 ‌4-bit 量化‌(Q4),键(Key)和值(Value)使用 q4_0 量化类型,显著减少内存占用。

2. 模型架构与并行配置

  • -ngl 99

    • 作用‌:设置 ‌GPU 层数(Number of GPU Layers)‌。
    • 细节‌:
      • 99 表示将模型的前 99 层加载到 GPU(若模型总层数 ≥99)。
      • 剩余层(如注意力层、输出层)可能在 CPU 上运行(需结合 --n-cpu-moe 配置)。
      • 适用场景‌:多 GPU 或 GPU 内存不足时,通过分层卸载平衡负载。
  • --n-cpu-moe 32

    • 作用‌:分配 ‌32 个 CPU 线程处理 MoE(混合专家)路由‌。
    • 细节‌:
      • MoE 模型需动态选择专家(Expert)处理输入,此参数控制路由计算的并行度。
      • 数值需 ≤ 物理 CPU 核心数(如 64 核 CPU 可设为 32-64)。
      • 性能影响‌:线程数过高可能导致上下文切换开销,需实测调优。

3. 推理加速优化

  • --flash-attn on

    • 作用‌:启用 ‌Flash Attention‌ 优化。
    • 细节‌:
      • 通过算法优化减少注意力计算的内存访问次数,显著提升速度(尤其长序列)。
      • 硬件要求‌:需支持 Tensor Cores 的 GPU(如 NVIDIA A100/H100)。
      • 兼容性‌:若 GPU 不支持,可能自动回退到标准注意力机制。
  • -c 65536

    • 作用‌:设置 ‌上下文窗口大小(Context Length)‌ 为 65,536 tokens。
    • 细节‌:
      • 决定模型能处理的最大输入/输出序列长度(如长文档摘要、多轮对话)。
      • 内存影响‌:窗口越大,KV 缓存占用越高(需配合 --cache-type-k 和 --cache-ram 调整)。
      • 限制‌:实际可用窗口可能受模型架构和硬件限制(如 35B 模型可能支持 ≤32K tokens)。

4. 缓存与量化配置

  • --cache-type-k q4_0

    • 作用‌:指定键(Key)的缓存量化类型为 ‌4-bit 量化的 q4_0 格式‌。
    • 细节‌:
      • q4_0 是 GGML 量化的一种,牺牲少量精度换取内存节省(通常压缩率 75%)。
      • 仅量化 Key(不量化 Value),平衡速度与质量(部分实现可能同时量化 Value)。
      • 适用场景‌:内存受限但需处理长序列时。
  • --cache-ram 0

    • 作用‌:不限制 ‌系统内存(RAM)用于缓存的大小‌。
    • 细节‌:
      • 缓存主要用于存储 KV 缓存和中间结果,0 表示自动分配(可能占用全部可用内存)。
      • 风险‌:若系统内存不足,可能导致 OOM(需监控内存使用)。
      • 替代方案‌:可设为固定值(如 --cache-ram 16000000000 限制为 16GB)。

5. 多进程与工具集成

  • -np 4

    • 作用‌:启动 ‌4 个推理进程‌(Number of Processes)。
    • 细节‌:
      • 多进程可并行处理多个请求,提升吞吐量(尤其高并发场景)。
      • 每个进程独立加载模型,需确保总内存足够(35B 模型 ×4 进程可能需 >100GB 内存)。
      • 适用场景‌:服务化部署(如 API 服务)。
  • --tools

    • 作用‌:启用 ‌工具调用能力‌(如函数调用、外部 API 交互)。
    • 细节‌:
      • 允许模型通过工具扩展功能(如查询数据库、调用计算器)。
      • 需配合工具定义文件(如 tools.json)使用,具体实现依赖框架版本。
      • 典型场景‌:智能体(Agent)应用(如 AutoGPT、BabyAGI)。

参数组合建议

  1. 内存优化配置‌(低显存 GPU):

    
      

    bash

    llama-server.exe -m g:\ai\models\Qwen3.6-35B-A3B-UD-Q4_K_M.gguf -ngl 64 --n-cpu-moe 16 --flash-attn on -c 32768 --cache-type-k q4_0 -np 2 --cache-ram 8000000000

    • 减少 GPU 层数(-ngl 64)、缩小上下文窗口(-c 32768)、限制缓存内存(8GB)。
  2. 高性能配置‌(多 GPU + 高显存):

    
      

    bash

    llama-server.exe -m g:\ai\models\Qwen3.6-35B-A3B-UD-Q4_K_M.gguf -ngl 120 --n-cpu-moe 32 --flash-attn on -c 65536 --cache-type-k q4_0 -np 4 --cache-ram 0

    • 最大化 GPU 利用率(-ngl 120)、启用 Flash Attention、不限制缓存内存。

注意事项

  • 硬件匹配‌:确保 GPU 支持 Flash Attention(如 NVIDIA Ampere 架构及以上)。
  • 监控资源‌:使用 nvidia-smi(GPU)和 htop(CPU)监控负载,避免瓶颈。
  • 框架版本‌:部分参数(如 --tools)可能需特定版本的 llama-server 支持。

通过调整这些参数,可在 ‌推理速度、内存占用、模型质量‌ 之间找到最佳平衡点。

测试一下,问它个问题:你擅长什么?

Reasoning

Toggle content

我擅长多个方向的能力,主要集中在以下几个方面:

  • 复杂推理与逻辑分析:能拆解数学、科学、商业及日常场景中的复杂问题,提供严谨、可验证的分析路径。
  • 全栈代码与开发支持:支持多语言代码生成、理解、调试与重构,可协助完成从脚本到完整项目架构的开发任务。
  • 超长上下文处理:支持 256K 上下文窗口,能一次性阅读并精准定位长篇文档、报表或日志中的关键信息。
  • 多语言与跨文化交互:原生支持全球 100 多种语言,满足国际化沟通、翻译与本地化需求。
  • 智能体与自动化工作流:可自主规划多步任务,结合搜索、代码执行与工具调用,独立完成复杂流程。
  • 专业领域知识增强:在医疗、法律、金融、教育等垂直领域具备深度知识对齐,可提供合规、实用且结构清晰的建议。

如果你有具体的任务、想测试某项能力,或需要我协助完成某类工作,直接告诉我即可,我会按需为你高效处理。

Qwen3.635B-A3BUDQ4_K_M.gguf

ReadingGeneration

938 tokens2min 50s5.50 t/s

可以看到答案还是可以的。

耗时

总共耗时约3分钟,可以一用。主要是cpu和显卡都较差,

CPU

    Intel(R) Xeon(R) CPU E5-2643 v2 @ 3.50GHz

    Base speed:    3.50 GHz
    Sockets:    2
    Cores:    12
    Logical processors:    24
    Virtualization:    Enabled
    L1 cache:    768 KB
    L2 cache:    3.0 MB
    L3 cache:    50.0 MB

    Utilization    32%
    Speed    3.58 GHz
    Up time    2:21:49:31
    Processes    451
    Threads    8502
    Handles    251410

GPU 0

    NVIDIA Quadro K4200

    Driver version:    30.0.14.7514
    Driver date:    6/10/2024
    DirectX version:    12 (FL 11.0)
    Physical location:    PCI bus 5, device 0, function 0

    Utilization    6%
    Dedicated GPU memory    0.8/4.0 GB
    Shared GPU memory    0.2/32.0 GB
    GPU Memory    1.0/36.0 GB

总体llama.cpp配这款模型,32G的主机配老显卡,都可以一战!

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐