Qwen3.6-27B实测:27B参数凭什么超越397B旗舰?

2026年4月22日,阿里千问团队开源了Qwen3.6-27B。一个270亿参数的稠密模型,在四大智能体编程基准上全面超越了自家前代旗舰Qwen3.5-397B-A17B(3970亿总参数,170亿激活)。

这不是标题党。SWE-bench Verified 77.2 vs 76.2,Terminal-Bench 2.0 59.3 vs 52.5,SkillsBench 48.2 vs 30.0。后两项差距巨大。

更关键的是:它是稠密模型,单卡可部署,Apache 2.0协议可商用。

我花了两天时间,在不同硬件上部署和测试了这个模型。以下是我的完整实测记录。

为什么27B能打败397B?

先回答最核心的问题:参数量差15倍,凭什么反超?

架构创新:Gated DeltaNet + Gated Attention混合

以下技术原理基于Qwen3.6官方技术报告[1]的理解和解读。

Qwen3.6-27B没有用MoE(混合专家),而是用了混合注意力架构:

16 × (3 × (Gated DeltaNet → FFN) → 1 × (Gated Attention → FFN))

Gated DeltaNet是关键创新。传统注意力需要维护完整的KV缓存,复杂度是O(n²)。DeltaNet用门控机制选择性保留信息,复杂度接近O(n)。简单理解:传统注意力是"精读每个字",DeltaNet是"抓重点快速浏览"。

每3层DeltaNet配1层标准注意力,既保证了长距离依赖的精确性,又控制了推理成本。

多步训练(MTP)

技术来源:Qwen3.6官方技术报告[1]

Qwen3.6-27B在训练中使用了多步预测(Multi-Token Prediction)。传统训练每次只预测下一个Token,MTP同时预测后续多个Token。这让模型学会了"往前看几步"的能力,对代码生成特别有效——写代码本来就是提前规划多步的过程。

结果:智能体编程全面领先

所有数据来自Qwen官方技术报告[1]:

基准测试 Qwen3.6-27B Qwen3.5-397B-A17B 差距
SWE-bench Verified 77.2 76.2 +1.0
SWE-bench Pro 53.5 50.9 +2.6
Terminal-Bench 2.0 59.3 52.5 +6.8
SkillsBench 48.2 30.0 +18.2

SkillsBench的差距最夸张:60%的领先。这个基准测试的是AI Agent在真实开发场景中的综合能力(理解需求、规划任务、编写代码、调试修复)。

推理能力方面:GPQA Diamond 87.8,和数倍于其规模的模型持平[1]。

部署方案:从消费级到生产级

Qwen3.6-27B是稠密模型,27B参数。模型文件约55.59 GB(BF16精度)。这意味着你需要足够的显存把它装进去。

方案一:Mac M系列芯片(最简单)

如果你有32GB以上统一内存的Mac,直接用Ollama:

# 安装Ollama
brew install ollama

# 拉取Qwen3.6-27B
ollama pull qwen3.6:27b

# 验证
ollama run qwen3.6:27b "用Python写一个快速排序"

实测(MacBook Pro M4 Max 48GB)

  • 模型加载时间:约90秒
  • 生成速度:约18 Token/秒
  • 内存占用:约32GB
  • 编程质量:日常代码生成完全够用,复杂架构设计不如Opus 4.6

注意:Mac版跑的是量化后的GGUF格式,精度有损失。代码生成影响不大,数学推理可能有差异。

方案二:单张RTX 4090(性价比最高)

4090有24GB显存。27B模型的BF16版本需要55GB显存,装不下。必须用量化版本。

FP8量化版:约28GB显存需求,仍然超了4090的24GB。

GPTQ-Int4量化版:约16GB显存需求,4090可以跑。

# 1. 安装vLLM
pip install vllm

# 2. 下载Int4量化版
pip install modelscope
modelscope download --model Qwen/Qwen3.6-27B-GPTQ-Int4

# 3. 启动vLLM服务
python -m vllm.entrypoints.openai.api_server \
  --model /path/to/Qwen3.6-27B-GPTQ-Int4 \
  --served-model-name qwen3.6-27b \
  --tensor-parallel-size 1 \
  --gpu-memory-utilization 0.95 \
  --max-model-len 8192 \
  --host 0.0.0.0 \
  --port 8000

实测(RTX 4090 24GB)

  • Int4量化后生成速度:约35 Token/秒
  • 显存占用:约18GB(8K上下文)
  • 16K上下文时显存:约22GB(接近上限)
  • 编程质量:Int4量化对代码生成的精度损失几乎不可感知

踩坑1:vLLM的nightly版对新模型支持不稳定。CSDN博主@fzuim用vllm/vllm-openai:nightly启动直接报错[2]。建议用稳定版:pip install vllm==0.19.0

踩坑2:ModelScope下载路径有软链接问题。vLLM可能把本地路径误判为HuggingFace仓库ID[3]。解决方法:用tree命令找到包含config.json的物理路径,直接指向该路径。

方案三:A100 80GB(生产级)

一张A100 80GB可以跑BF16原版或FP8量化版。

关于双4090:理论上两张4090(24GB×2=48GB)可以跑FP8版(约28GB),但两张卡之间通过PCIe通信做tensor-parallel,效率极低。没有NVLink桥接的情况下,跨卡通信延迟会严重影响生成速度。如果坚持用双4090,建议只跑Int4量化版,降低跨卡通信压力。

# BF16原版(需要约55GB显存,A100 80GB单卡)
python -m vllm.entrypoints.openai.api_server \
  --model /path/to/Qwen3.6-27B \
  --served-model-name qwen3.6-27b \
  --tensor-parallel-size 1 \
  --max-model-len 32768 \
  --host 0.0.0.0 \
  --port 8000

# FP8量化版(约28GB显存,单张A100 80GB足够)
modelscope download --model Qwen/Qwen3.6-27B-FP8
python -m vllm.entrypoints.openai.api_server \
  --model /path/to/Qwen3.6-27B-FP8 \
  --served-model-name qwen3.6-27b-fp8 \
  --tensor-parallel-size 1 \
  --max-model-len 32768 \
  --host 0.0.0.0 \
  --port 8000

方案四:昇腾910B(国产化部署)

如果你的环境必须用国产GPU,昇腾910B1也可以部署Qwen3.6-27B[4]:

# 使用vllm-ascend镜像
docker run --privileged=true --name qwen3.6-27B \
  --device /dev/davinci0 --device /dev/davinci_manager \
  --device /dev/devmm_svm --device /dev/hisi_hdc \
  -v /usr/local/dcmi:/usr/local/dcmi \
  -v /usr/local/bin/npu-smi:/usr/local/bin/npu-smi \
  -v /data/models:/app/models \
  -p 8000:8000 \
  quay.io/ascend/vllm-ascend:v0.18.0rc1 \
  --model /app/models/Qwen3.6-27B \
  --served-model-name qwen3.6-27b \
  --tensor-parallel-size 1

部署方案速查

方案 硬件 精度 上下文 速度 成本
Mac Ollama M系列 48GB GGUF-Q4 8K ~18 T/s ¥0(已有设备)
单4090 24GB GPTQ-Int4 8K ~35 T/s ~¥15,000
双4090 48GB FP8 32K ~45 T/s ~¥30,000
A100 80GB 80GB BF16 32K ~60 T/s ~¥80,000
昇腾910B 64GB BF16 16K ~40 T/s 国产替代

接入Claude Code:省钱实操

这是Qwen3.6-27B最实用的场景之一。Claude Code的Token消耗巨大,日均费用$6-13[5]。把简单重复的开发任务交给本地Qwen3.6-27B,复杂任务再上Claude,能省一半费用。

步骤一:启动本地Qwen3.6-27B服务

# 用vLLM启动(以单4090 Int4量化为例)
python -m vllm.entrypoints.openai.api_server \
  --model /path/to/Qwen3.6-27B-GPTQ-Int4 \
  --served-model-name qwen3.6-27b \
  --tensor-parallel-size 1 \
  --gpu-memory-utilization 0.95 \
  --max-model-len 8192 \
  --host 127.0.0.1 \
  --port 11434

注意端口用11434,这是Ollama的默认端口。Claude Code通过Ollama协议连接本地模型更方便。

步骤二:配置Claude Code

⚠️ 以下配置方式基于社区经验[7],Claude Code对本地模型的官方支持方式可能随版本变化。建议参考Claude Code最新文档确认。

Claude Code支持通过Ollama接入本地模型。启动时指定模型名称即可:

# 使用本地Ollama模型
claude --model qwen3.6-27b

如果默认Ollama地址不是localhost:11434,需要设置环境变量:

export OLLAMA_API_BASE=http://127.0.0.1:11434

步骤三:使用方式

# 简单任务用本地模型
claude --model qwen3.6-27b "帮我写一个FastAPI的健康检查接口"

# 复杂任务用Claude
claude --model claude-sonnet-4-20250514 "重构整个认证模块,支持OAuth2.0"

省钱效果估算

按我的实际使用模式(70%简单任务 + 30%复杂任务),粗略估算:

方案 月度Token消耗 月度费用
纯Claude Pro ~500万 $100-200
Claude + 本地Qwen ~150万Claude + 本地免费 $30-60

⚠️ 以上为估算值,基于Claude Pro日均$6-13的费用区间[5]和我的个人使用频率。实际费用因使用强度而异。本地部署的电费和硬件折旧约$10-20/月。综合下来省了约50-60%。

注意:Qwen3.6-27B在Function Calling、复杂重构、跨文件理解等场景和Claude Sonnet有差距。不要把它当Claude的完全替代,而是分工协作。

编程能力对比:5个场景

我设计了5个编程场景,对比Qwen3.6-27B(Int4量化)和Claude Sonnet 4.5的表现。

⚠️ 透明说明:以下对比基于我个人的主观体验,非标准化评测。评分标准:5星=一次写对且包含边界处理,4星=基本正确但缺少边界处理,3星=方向正确但有关键遗漏,2星=有明显错误,1星=完全不可用。

场景1:算法题(简单)

提示词:实现一个LRU缓存,支持get和put操作,O(1)时间复杂度。

结果:两个模型都一次写对。Qwen3.6-27B用了Python的OrderedDict,Claude用了手写的双向链表。两者都正确,Qwen的实现更简洁。

评分:Qwen3.6-27B ⭐⭐⭐⭐⭐ vs Claude ⭐⭐⭐⭐⭐

场景2:API开发(中等)

提示词:用FastAPI实现一个带JWT认证的用户注册登录系统,包括token刷新和黑名单机制。

结果:Qwen3.6-27B生成了完整的代码,包括路由、模型、JWT工具函数。但遗漏了token黑名单的清理逻辑(黑名单会无限增长)。Claude的实现包含了Redis过期清理。

评分:Qwen3.6-27B ⭐⭐⭐⭐ vs Claude ⭐⭐⭐⭐⭐

场景3:Bug修复(中等)

提示词:这段代码有并发问题,找出并修复。[给了一段多线程共享状态的代码]

结果:Qwen3.6-27B正确识别了竞态条件,用了threading.Lock修复。但没有考虑死锁风险。Claude不仅加了锁,还指出了潜在的死锁场景,并给出了超时锁方案。

评分:Qwen3.6-27B ⭐⭐⭐⭐ vs Claude ⭐⭐⭐⭐⭐

场景4:架构设计(复杂)

提示词:设计一个分布式任务调度系统,支持定时任务、重试机制、死信队列、任务优先级。

结果:Qwen3.6-27B给出了基本架构(Producer→Queue→Worker→Dead Letter),但缺少关键细节:没有任务分片的方案,没有优先级队列的具体实现,重试策略只说了"指数退避"没给具体参数。Claude给出了完整的技术选型(Celery + Redis + RabbitMQ)、分片策略、监控告警方案。

评分:Qwen3.6-27B ⭐⭐⭐ vs Claude ⭐⭐⭐⭐⭐

场景5:跨文件重构(复杂)

提示词:把一个Django项目从同步视图全部迁移到异步视图,涉及30+个文件。

结果:Qwen3.6-27B能处理单个文件的迁移(同步改异步),但在理解跨文件依赖关系时有遗漏。比如迁移了视图层但忘了更新中间件的异步适配。Claude给出了分步骤的迁移计划和依赖关系图。

评分:Qwen3.6-27B ⭐⭐⭐ vs Claude ⭐⭐⭐⭐⭐

实测结论

场景类型 Qwen3.6-27B Claude Sonnet 4.5 差距
算法题 ⭐⭐⭐⭐⭐ ⭐⭐⭐⭐⭐ 持平
API开发 ⭐⭐⭐⭐ ⭐⭐⭐⭐⭐
Bug修复 ⭐⭐⭐⭐ ⭐⭐⭐⭐⭐
架构设计 ⭐⭐⭐ ⭐⭐⭐⭐⭐
跨文件重构 ⭐⭐⭐ ⭐⭐⭐⭐⭐

一句话:Qwen3.6-27B在单文件、明确需求的编码任务上已经接近Claude Sonnet 4.5水平。复杂架构设计和跨文件理解仍有明显差距。但考虑到它免费、本地运行、数据不出域,这个性价比是无敌的。

5个真实踩坑

坑1:vLLM版本兼容

vLLM的nightly版对新架构支持不稳定。Qwen3.6-27B用的Gated DeltaNet是新架构,需要vLLM 0.19.0+。CSDN博主@fzuim用nightly版启动后直接报错,换成0.19.0稳定版才解决[2]。

解决pip install vllm==0.19.0,不要用nightly。

坑3(Int4长上下文显存暴涨)和坑5(Ollama GGUF非最新)来自我的实际部署经验,坑1、2、4来自社区踩坑文章[2][3][6]。

坑2:ModelScope下载路径的软链接陷阱

ModelScope下载的模型目录包含软链接(Qwen3.6-27B → Qwen3___6-27B),Docker容器内无法正确解析[3]。

解决:用tree命令找到包含config.json的物理路径,直接挂载物理路径。设置HF_HUB_OFFLINE=1 TRANSFORMERS_OFFLINE=1强制离线。

坑3:Int4量化的长上下文问题

Int4量化版在8K上下文内表现稳定,但超过16K上下文时显存会突然暴涨。原因是KV缓存的精度降低后,某些长序列的注意力计算需要更多中间变量。

解决:单4090场景下,把--max-model-len限制在8192。需要长上下文就用FP8版+双卡。

坑4:Function Calling支持不完整

Qwen3.6-27B支持Function Calling,但通过llama.cpp的llama-server部署时,默认不支持[6]。需要加--jinja参数才能启用。

解决

llama-server -m qwen3.6-27b-q4.gguf \
  --n-gpu-layers 999 \
  --ctx-size 16384 \
  --jinja \
  --host 127.0.0.1 \
  --port 8080

坑5:Ollama的GGUF版本默认非最新

Ollama官方仓库的Qwen3.6-27B GGUF版本可能不是最新的。如果你需要最新优化,需要自己转换GGUF。

解决

# 自己转换最新GGUF
python convert_hf_to_gguf.py /path/to/Qwen3.6-27B --outtype f16 --outfile qwen3.6-27b-f16.gguf
# 再量化
./llama-quantize qwen3.6-27b-f16.gguf qwen3.6-27b-q4_k_m.gguf Q4_K_M

声明:以下参数数据来自各模型官方发布信息,能力评级基于个人使用体验。

Qwen3.6-27B vs DeepSeek V4 vs Llama 4

维度 Qwen3.6-27B DeepSeek V4-Flash[8] Llama 4 Maverick[9]
参数量 27B稠密 284B(13B激活)MoE 400B(17B激活)MoE
中文能力 ⭐⭐⭐⭐⭐ ⭐⭐⭐⭐ ⭐⭐⭐
编程能力 ⭐⭐⭐⭐ ⭐⭐⭐⭐ ⭐⭐⭐⭐
单卡部署 ✅ 24GB即可 ❌ 需多卡 ❌ 需多卡
本地免费
可商用 ✅ Apache 2.0 ✅ MIT ✅ Llama协议
多模态 ✅ 图像+视频 ❌ 纯文本 ✅ 图像

选择建议

  • 本地开发+中文场景:Qwen3.6-27B。单卡可跑,中文最强
  • 长上下文+性价比API:DeepSeek V4-Flash。百万Token上下文,API极便宜
  • 英文场景+开源生态:Llama 4 Maverick。英文社区资源最丰富

总结

Qwen3.6-27B证明了一件事:模型能力不等于参数量。通过架构创新(Gated DeltaNet混合注意力)和训练优化(MTP多步预测),27B稠密模型在编程能力上超越了15倍参数的MoE模型。

对于个人开发者和小团队来说,这是一个质变:

  • 之前:要旗舰级编程能力,必须用云API或8卡H800
  • 现在:一张4090就够了

我的最终建议:

你的情况 推荐
有32GB+ Mac Ollama跑Qwen3.6-27B,日常开发完全够用
有4090 vLLM跑Int4版,接入Claude Code做分工
有A100 80GB 跑BF16原版,可以做团队内部共享服务
只有CPU 不建议跑27B,用Qwen3.6-7B或API
需要长上下文(>32K) 用DeepSeek V4-Flash API

参考文献:

[1] Qwen Team, “Qwen3.6-27B Technical Report”, 2026.04.22 — https://qwenlm.github.io/blog/qwen3.6/

[2] @fzuim, “Qwen3.6-27B本地部署踩坑实录:两块4090折腾一天的真实记录”, CSDN, 2026.05.03 — https://blog.csdn.net/fzuim/article/details/160462593

[3] @Leonardo-li, “NVIDIA L20部署Qwen3.6-27B-FP8全链路故障复盘手册”, 博客园, 2026.04.30 — https://www.cnblogs.com/Leonardo-li/p/19960683

[4] @m0_55812083, “昇腾910B1部署Qwen3.6-27B”, CSDN, 2026.04.29 — https://blog.csdn.net/m0_55812083/article/details/160613907

[5] 科创板日报, “Anthropic悄然上调Claude Code的Tokens使用成本预估 涨幅超100%”, 2026.04.29

[6] @q6196310920, “AgentScope + llama.cpp + Qwen3.6本地大模型工具调用踩坑实录”, CSDN, 2026.04.27 — https://blog.csdn.net/q6196310920/article/details/160538204

[7] @qq_43692950, “Qwen3.6-27B本地私有化部署 + Claude Code连接应用”, CSDN, 2026.04.28

[8] DeepSeek-V4 Technical Report, 2026.04.24 — https://api-docs.deepseek.com/news/news0424

[9] Meta AI, “Llama 4 Maverick Model Card”, 2026.04 — https://llama.meta.com/model-cards/


附录:快速部署命令

# === Mac M系列 ===
brew install ollama
ollama pull qwen3.6:27b
ollama run qwen3.6:27b "你好"

# === RTX 4090(Int4量化) ===
pip install vllm==0.19.0 modelscope
modelscope download --model Qwen/Qwen3.6-27B-GPTQ-Int4
python -m vllm.entrypoints.openai.api_server \
  --model ~/.cache/modelscope/Qwen/Qwen3___6-27B-GPTQ-Int4 \
  --served-model-name qwen3.6-27b \
  --tensor-parallel-size 1 \
  --gpu-memory-utilization 0.95 \
  --max-model-len 8192 \
  --host 0.0.0.0 --port 8000

# === 验证服务 ===
curl http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{"model":"qwen3.6-27b","messages":[{"role":"user","content":"用Python写快速排序"}]}'
Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐