Qwen3.5-9B:可以本地跑的小模型,打败了更大的云端模型?
阿里巴巴千问团队于 2026 年 3 月发布了
Qwen3.5 小模型系列(0.8B 到 9B),其中 9B 旗舰在GPQA Diamond推理 benchmark 上超越了OpenAI的gpt-oss-120B。
这篇文章介绍了Qwen3.5 小模型系列的架构特点,并分析了“9B 打败 120B”这一说法背后容易被忽略的上下文:两者在每 token 激活参数量上其实相差无几,还提供了在本地硬件上运行这些模型的具体方法。文章适合对本地部署 LLM 感兴趣的开发者、AI 研究者,以及希望在不依赖云端 API 的情况下构建 AI 应用的工程师。
我已经不写关于新模型发布的内容了,实在是太多了。每周都有另一个实验室发布一个听起来像星球大战机器人的名字的东西,而且很多时候基准测试数字都被粉饰得够呛,以至于“突破”这个词已经完全失去了意义。我给自己定了一条规则:如果我不用它,我就不写它的内容。这次破例了。

阿里巴巴的千问团队刚刚发布了四个新模型:Qwen3.5-0.8B、Qwen3.5-2B、Qwen3.5-4B 和 Qwen3.5-9B。尽管我已经停止写模型有关的内容,因为每天都有新模型,但这次引起了我的注意:因为我可以在笔记本电脑上运行它。不是那种“技术上能跑,但每秒只出 2 个 token、风扇狂转”的跑法,是真正意义上的运行起来。
9B 模型,这个小模型系列的旗舰,在 GPQA Diamond(一个研究生级别的推理 benchmark)上得分 81.7。OpenAI 的 gpt-oss-120B 在同一 benchmark 上的得分在 71.5 到 80.9 之间,取决于推理级别和是否启用工具。即使取 GPT-oss 最高分,9B 模型仍然略胜一筹。
但在你拿着“小模型干翻大模型”的叙事宣传之前,让我解释一下其中的微妙。
1. 需要背景的对比
GPT-oss-120B 有 1170 亿个总参数,但它是一个混合专家 Mixture-of-Experts(MoE)模型,每次前向传播只激活 51 亿个参数。Qwen3.5-9B 是一个 dense 模型,每个 token 都会激活全部 90 亿个参数。
所以当人们说“9B 模型打败了 120B 模型”,从总参数量来说确实没错。但从每个 token 的实际计算量来看,Qwen3.5-9B 激活的参数量大约是 GPT-oss-120B 的 1.8 倍。这个故事并不是“小模型打败大模型”,而是“一个 9B dense 模型,胜过了一个每 token 只激活 5.1B 参数、但总权重有 117B 的模型”。
那还是令人印象深刻。但是,这种令人印象深刻的感觉和“参数多了十三倍,分数反而更低”那种不一样。

图 1:当你用每 token 的激活参数量来比较,而不是总参数量,画面完全不同。Qwen3.5-9B(dense)每 token 实际使用的计算量比 GPT-oss-120B(MoE,5.1B 激活)更多。
还有一个值得注意的 benchmark 报告差异。Qwen 自己的 benchmark 表格似乎将 9B 与在 GPQA Diamond 上得分为 71.5 的 GPT-oss-120B 进行了比较,一些来源认为这可能反映了 GPT-oss-120B 较低的推理水平,或者可能是 gpt-oss-20B 的分数。来自 Clarifai 的第三方评估报告称,GPT-oss-120B 在启用高推理水平工具时得分为80.9,VentureBeat 则报告了80.1。81.7 和 71.5 之间的差距很大。81.7 和 80.9 之间的差距很小,在逐次运行的方差范围之内。你信哪个数字,整个故事就完全不同。
我会把多个来源报告的数字都呈现出来,由你来决定如何权衡。
- Qwen3.5 Small 到底是什么
Qwen3.5 Small Series 是 2026 年 3 月 2 日发布的四个紧凑型 dense 模型家族,基于与 Qwen 旗舰 397B MoE 模型相同的基础架构。这些不是从更大模型上砍掉功能的缩水版,而是从头开始为小型高效而设计的,使用了结合 Gated Delta Networks 的混合架构,与旗舰模型共享相同的设计理念。
四个模型在部署层级上有意错开:
- Qwen3.5-0.8B 和 2B:为边缘设备设计。想想手机芯片、IoT 硬件、离线推理。来自 r/LocalLLaMA 的社区 benchmark 报告称 2B 模型在 iPhone 上通过 MLX 优化流畅运行,每秒生成 30 到 50 个 token。
- Qwen3.5-4B:定位为轻量级 agent 的多模态基座。通过 early-fusion 训练实现原生多模态支持,文本和图像从一开始就共享同一个 latent space。这与旧式的 adapter-based 方法不同,后者是把 vision encoder 拼接到语言模型上。4B 据报道在 ScreenSpot Pro 等 agent 评估上与上一代 Qwen3-VL-30B-A3B 性能相当,尽管参数量小了近八倍。
- Qwen3.5-9B:小系列的旗舰。这是引起人们关注的模型。
2. 承担重任的架构
四个模型都使用 Gated DeltaNet 混合架构,linear attention block 与完整 softmax attention block 的比例为 3:1。linear attention 层提供常数级内存复杂度,这就是 Qwen 如何让即使是 2B 模型也拥有 262,144 token 原生上下文窗口而不至于无法运行的原因。完整 attention block 处理需要精确 token 关系的精细工作。
训练使用了在大型模拟环境中的 Scaled Reinforcement Learning。这与仅在 benchmark 数据集上微调不同。根据 Qwen 的文档,RL 训练针对真实世界的适应性进行了优化,包括工具使用和结构化多步骤工作流。
他们还在训练中使用了 multi-token prediction,通过允许模型在单步中预测多个后续 token 来加速推理。词汇表覆盖 201 种语言的 248,000 个 token。
一个重要说明:小模型(0.8B 到 9B)是 dense 模型。Qwen3.5 家族中的旗舰 397B 和部分中型模型使用稀疏 Mixture-of-Experts,但小系列不是。
3. 数字,附上来源
以下是我能在多个来源中核实的 benchmark 对比。9B 的所有分数均为 thinking mode,除非另有说明。

Language and Reasoning Benchmarks

图 2:在仅限语言的 benchmark 中,实际比较结果跟标题更为接近。GPT-oss-120B 实际上在 MMLU-Pro 上领先。GPT-oss 的 GPQA Diamond 分数因来源而异(71.5 vs 80.9)。
重要提示:GPT-oss-120B 在 MMLU-Pro 上以明显优势胜出(90.0 vs 82.5)。9B 并非在所有语言任务上都占主导地位。它在 GPQA Diamond 和多语言知识上胜出,但在更广泛的语言推理上处于劣势。

Vision and Multimodal Benchmarks

图 3:在视觉和多模态任务上,9B 占主导地位。但注意:GPT-oss-120B 被排除在此图之外,因为它是纯文本模型。这些对比是针对其他多模态模型的。9B 还在 GPQA Diamond(高出 8 分)、IFEval(高出 3 分)和 LongBench v2(高出 10 分)上超越了上一代 Qwen3-30B,而后者的参数量是它的三倍以上。
这些结果很强。但我想说清楚:9B 看起来最占优势的对比,尤其是视觉和多模态 benchmark,是针对从未为这些任务设计的模型。与 GPT-oss-120B 的纯语言比较也并非标题那样看上去简单。
4. 为什么我在乎"能不能跑起来"
我在读博期间有幸使用过一些相当大的模型。那段经历教会我的一件事是:"令人印象深刻的 benchmark"和"实际上对构建东西有用"之间的差距是巨大的。
Qwen3.5 系列缩小了这个差距。一年前,在本地运行多模态模型意味着 13B+ 参数的模型和一块有大量 VRAM 的专用 GPU。Qwen3.5-4B 用 262K 上下文窗口处理文本、图像和视频。
9B 模型在 BF16 精度下需要大约 18GB VRAM,这意味着它可以在 24GB 消费级 GPU(如 RTX 3090 或 RTX 4090)上无需量化运行。使用 4-bit 量化,降至约 5GB,适用于更广泛的硬件,包括 Apple Silicon Mac。社区报告显示消费级硬件上每秒 30 到 50 个 token,但吞吐量因配置而异。
对于任何构建医疗 AI 工具、agent pipeline 或处理敏感数据的本地应用的人来说,这是一个有意义的变化。没有 API 调用,没有数据离开设备,没有往返云端的延迟——这是很重要的。
5. 好,那怎么实际跑起来?
这是我希望更多模型发布文章包含的部分。Benchmark 很好,在你的机器上跑起来的模型更好。
最简单的方式是 Ollama。从 ollama.com 安装(Mac、Linux 和 Windows 上都是单个应用下载),然后运行一条命令:
ollama run qwen3.5
这会默认拉取 9B 并进入聊天会话。如果你想要特定大小:
ollama run qwen3.5:4b # 更轻量,仍支持多模态
ollama run qwen3.5:2b # 适合旧硬件
ollama run qwen3.5:0.8b # 几乎什么都能跑,甚至 CPU
Ollama 在 NVIDIA 和 Apple Silicon 上都自动处理 GPU 加速,无需配置。
根据你的硬件选择大小。0.8B 需要约 1GB,必要时可以在 CPU 上运行。2B 需要约 3GB VRAM。4B 约 4 到 5GB。9B 在 4-bit 量化下约 5GB。在完整 BF16 精度下需要 24GB GPU。
如果你想在代码中使用,Ollama 在 localhost:11434 暴露了一个 OpenAI 兼容的 API:
from ollama import chat
response = chat(
model='qwen3.5:9b',
messages=[{'role': 'user', 'content': 'Hello!'}],
)
print(response.message.content)
这意味着任何已经与 OpenAI API 兼容的工具,只需修改一个配置就可以指向你本地的 Qwen3.5。没有 API 费用,没有速率限制,没有数据离开你的机器。
对于生产工作负载或高吞吐量场景,官方文档推荐使用专用服务引擎,如 SGLang、KTransformers 或 vLLM,而不是 Ollama 这类简单工具。
6. 缺少什么
我想在这里诚实地说明,因为围绕这些模型的炒作已经跑在证据前面了。
第一,造成轰动的参数比较具有误导性。说“9B 打败了 120B”而不提 GPT-oss-120B 每 token 只激活 5.1B 参数,是遗漏了最重要的背景。Qwen3.5-9B 每 token 使用的活跃计算量比 GPT-oss-120B 更多。这并不削弱 Qwen 的成就,但重新定义了两个模型之间的对比。
第二,GPT-oss-120B 的 GPQA Diamond 分数在不同来源之间差异显著,从 71.5 到 80.9,取决于推理级别和工具使用配置。使用哪个数字,对比看起来就完全不同。Benchmark 对比应该明确这些条件。
第三,Benchmark 很强。但 benchmark 在受控环境中进行的。Agentic 多步骤工作流则不是。正是同样的强化学习训练,让这些模型擅长结构化任务,但也意味着在链条早期出现的微小错误,到第五步时可能会级联成无意义的结果。在生产环境中,你需要自己进行测试。
第四,在笔记本电脑上用 9B 进行个人实验是没问题的。但要把它用在真实产品中进行推理,那又是另一回事了。如果是全精度运行,你需要一块 24GB 的 GPU。而使用量化技术的话,你需要评估一下质量上的取舍是否适用于你的具体使用场景。
第五,所有四个模型都来自 Alibaba。如果你正在构建一个对权重来源有要求的系统,这是一个值得深思的考虑因素。
7. 更大的图景
Qwen3.5 Small 的发布完成了 Qwen3.5 家族:397B 旗舰(2 月 16 日发布)、中型系列(2 月 24 日)、以及现在的小型模型。都有相同的架构 DNA,都原生支持多模态,都采用 Apache 2.0 许可证,意味着你可以商业使用。
这传递的信号是:“小而本地”和“大而云端”之间的性能差距正在以大多数人预期更快的速度缩小。不是因为小模型神奇地在所有方面匹配万亿参数系统,而是因为对于许多实际任务,一个架构良好、训练得当的 9B 模型现在已经足够好,可以替代一次 API 调用。
我认为这值得关注。不是因为 benchmark 是重点,而是因为这意味着我们在现实世界中实际可以使用的工具正在以重要的方式变得更好。
这些模型在 HuggingFace 和 ModelScope 上以 Apache 2.0 许可证提供。包含用于研究和微调的 base 模型。如果你在尝试本地推理,4B 可能是多模态工作最有趣的起点。对于服务部署,官方文档推荐 SGLang、vLLM 或 KTransformers,而不是 Ollama 这类简单工具。
这里给大家精心整理了一份全面的AI大模型学习资源,包括:AI大模型全套学习路线图(从入门到实战)、精品AI大模型学习书籍手册、视频教程、实战学习、面试题等,资料免费分享!
👇👇扫码免费领取全部内容👇👇
1. 成长路线图&学习规划
要学习一门新的技术,作为新手一定要先学习成长路线图,方向不对,努力白费。
这里,我们为新手和想要进一步提升的专业人士准备了一份详细的学习成长路线图和规划。可以说是最科学最系统的学习成长路线。
2. 大模型经典PDF书籍
书籍和学习文档资料是学习大模型过程中必不可少的,我们精选了一系列深入探讨大模型技术的书籍和学习文档,它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础。(书籍含电子版PDF)

3. 大模型视频教程
对于很多自学或者没有基础的同学来说,书籍这些纯文字类的学习教材会觉得比较晦涩难以理解,因此,我们提供了丰富的大模型视频教程,以动态、形象的方式展示技术概念,帮助你更快、更轻松地掌握核心知识。

4. 2026行业报告
行业分析主要包括对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。

5. 大模型项目实战
学以致用 ,当你的理论知识积累到一定程度,就需要通过项目实战,在实际操作中检验和巩固你所学到的知识,同时为你找工作和职业发展打下坚实的基础。

6. 大模型面试题
面试不仅是技术的较量,更需要充分的准备。
在你已经掌握了大模型技术之后,就需要开始准备面试,我们将提供精心整理的大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余。

7. 资料领取:全套内容免费抱走,学 AI 不用再找第二份
不管你是 0 基础想入门 AI 大模型,还是有基础想冲刺大厂、了解行业趋势,这份资料都能满足你!
现在只需按照提示操作,就能免费领取:
👇👇扫码免费领取全部内容👇👇
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐

所有评论(0)