使用vLLM部署Qwen3.6-35B-A3B/Qwen3.6-27B并且支持在Claude Code中调用

HoweChenya

2740人浏览 · 2026-04-17 11:31:57

HoweChenya · 2026-04-17 11:31:57 发布

前言

随着各种智能体工具（claude code, opencode, qwen code...)所展现出的越来越强的能力，越来越多人意识到，智能体工具是真的能在日常工作中提高自己的效率。普通人只要花一点钱就能买到一个“聪明的大脑”，但是随着需求的不断释放，模型厂商的算力也出现了瓶颈导致各家的Coding plan 越来越贵而且额度给的越来越少。好在昨晚阿里千万团队开源了Qwen/Qwen3.6-35B-A3B，这款相对轻量高效的模型，让普通实现token自由成为可能！（消费级显卡可以等量化模型，非量化版本权重也大概在71.93GB）今天我就讲讲如何使用VLLM部署这个令人激动的Qwen/Qwen3.6-35B-A3B！

模型简介

Qwen/Qwen3.6-35B-A3B在Qwen/Qwen3.5-35B-A3B的基础上着重提升了以下几种能力：

智能体编码（Agentic Coding）：模型现在能以更高的流畅度和精确度处理前端工作流和仓库级推理。
思维保留（Thinking Preservation）：可保留历史消息中的推理上下文，从而简化迭代开发并降低开销。

看来非常适合在智能体工具中使用呀！

硬件配置

本文所使用的GPU为H20 96GB VRAM，由于Qwen/Qwen3.6-35B-A3B的权重大概在72GB左右，请确保你有足够的GPU。

模型部署

创建环境

在创建环境之前先创建一个目录

mkdir qwen_3_6
cd qwen_3_6

使用uv创建并激活环境，如果没有安装过uv可以查看 uv安装

安装完uv后创建并激活环境

uv venv --python=3.12
source .venv/bin/activate

安装modelscope

modelscope是一个魔搭社区推出的用于便利管理魔搭社区平台上的模型权重和数据集的工具。

uv pip install modelscope

安装vLLM

vLLM是一个先进的大模型推理服务框架，支持大量的开源模型。

uv pip install vllm --torch-backend=auto

安装完vLLM后查看一下vllm版本需要>=0.19.0

下载模型

使用modelscope下载模型

modelscope download Qwen/Qwen3.6-35B-A3B

启动服务

配置文件

准备vllm serve配置文件，注意将配置文件中的"your-api-key"替换成你自己的api key，你可以随意指定一串字符串。

model: Qwen/Qwen3.6-35B-A3B
served_model_name: qwen3.6-flash
host: 0.0.0.0
port: 8000
tensor-parallel-size: 1
gpu-memory-utilization: 0.90
api-key: your-api-key
disable_fastapi_docs: true
enable_auto_tool_choice: true
tool_call_parser: qwen3_xml
reasoning-parser: qwen3
max-model-len: 131072
max_num_seqs: 1024
max_num_batched_tokens: 65536
enable_chunked_prefill: True
trust-remote-code: true

启动

export VLLM_USE_MODELSCOPE=true
vllm serve --config config.yaml

等待服务启动完成，出现如下图所示的日志代表服务成功启动：

在Claude Code中使用模型

安装claude code

npm install -g @anthropic-ai/claude-code

运行以下命令，如果输出版本信息则代表安装成功

claude --version

新增或编辑配置文件

MacOS & Linux 为 ~/.claude/settings.json

Windows 为用户目录/.claude/settings.json

{
    "env": {
        "ANTHROPIC_AUTH_TOKEN": "your-api-key",
        "ANTHROPIC_BASE_URL": "http://vllm-host:8000",
        "ANTHROPIC_DEFAULT_HAIKU_MODEL": "qwen3.6-flash",
        "ANTHROPIC_DEFAULT_OPUS_MODEL": "qwen3.6-flash",
        "ANTHROPIC_DEFAULT_SONNET_MODEL": "qwen3.6-flash",
        "ANTHROPIC_MODEL": "qwen3.6-flash",
        "API_TIMEOUT_MS": "3000000",
        "CLAUDE_CODE_DISABLE_NONESSENTIAL_TRAFFIC": "1"
    }
}

注意替换里面的`your-api-key`和`vllm-host`为你运行vllm 服务器地址。

编辑或新增 `.claude.json` 文件

MacOS & Linux 为 `~/.claude.json`

Windows 为`用户目录/.claude.json`

{
  "hasCompletedOnboarding": true
}

运行测试

claude

2026-04-23更新

就在昨晚（2026-04-22）阿里千问团队开源了Qwen/Qwen3.6-27B，Qwen3.6-27B依然支持多模态思考与非思考模式，在智能体编程方面达到了旗舰级表现，全面超越前代开源旗舰Qwen3.5-397B-A17B(总参数397B/激活参数17B的MoE模型)。

本部署教程同样适用于Qwen3.6-27B，只需要把模型替换即可。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

U-Boot分析【学习笔记】(10)

AtomGit开源社区

【LeetCode 406】根据身高重建队列：贪心算法的绝佳练手题（附C/C++/Python解法）

遇到多维度问题，务必分解动作，化繁为简。先搞定身高，再搞定站位，局部最优最终推导出了全局最优。照例贴上卡哥的代码随想录406.根据身高重建队列 | 贪心 | 排序 | 插入 | 代码随想录-全网最全算法数据结构刷题学习路线|图文+视频教程|免费开源。

AtomGit开源社区

大模型推理加速的“最后一公里”：从投机解码到弹性调度，ECHO框架如何重写解码效率规则

天花板不再是"模型能多强"，而是"每瓦算力能产生多少有效输出"。ECHO的弹性调度思路、MARCH的信息隔离机制，代表的是同一类答案：不是再加一层模型、再多训一轮数据，而是在现有的模型上，用更精妙的设计榨出更多价值。ICML和ACL的Spotlight席位，是对这个方向的学术认可。不一定非要造更大的发动机，换一套更聪明的传动系统，也能跑出令人意外的速度。