本地跑LLM模型哪家强：Qwen3.5+3.6 vs Gemma4 的个人实测

若苗瞬

994人浏览 · 2026-04-23 20:38:32

若苗瞬 · 2026-04-23 20:38:32 发布

文章目录

（零）前言
（一）理论评测
（二）实际场景
（三）结束语

（零）前言

之前接触过GPT4All，Ollama，用过Deepseek和千问模型。
也开发过小的演示程序来进行RAG和联网搜索，但那时模型不够强，包括RAG总感觉没啥实际作用。
这次乘着Gemma4和Qwen3.6发布，我也想知道我的电脑上能部署啥模型。
于是舍弃了比较慢的Ollama，换了自己编译的llama.cpp + OpenWebUI。

名词解释：

💡 GPT4All
能在消费级CPU上本地运行的开源生态系统，用于训练和部署无需连接GPU或互联网的轻量化大语言模型。在普通用户和文档处理场景中更受欢迎。

💡 Ollama
轻量级、可扩展的框架，用于在本地一键式运行、管理和打包如Llama 3等开源大语言模型。在开发者生态和社区热度上更为主流。

💡 llama.cpp
用C++实现的轻量级推理框架，能在消费级CPU上高效运行量化后的LLaMA等大语言模型，也可以适配GPU，比如CUDA和其它架构。

📖 DeepSeek
深度求索公司创造的开源、高性能AI助手，支持超长上下文、文件上传与联网搜索，文本性能比肩全球顶尖模型。它也有视觉模型VL，VL2 tiny的体量不大，但暂时无法在llama.cpp框架下跑起来。所以这次先排除❌。

📖 Qwen3.6
阿里通义千问于2026年4月发布的新一代大模型系列，包含旗舰版Qwen3.6-Plus、MoE架构的Qwen3.6-35B-A3B以及专为本地部署优化的稠密模型Qwen3.6-27B，以旗舰级的智能体编程能力和原生多模态支持为最大亮点。

📖 Gemma4
谷歌于2026年4月发布的新一代开源大模型家族，基于Gemini 3同源技术打造，采用Apache 2.0协议，提供从端侧到数据中心的四种规格，其中31B版本以310亿参数登上全球开源模型排行榜第三名

（一）理论评测

硬件环境是i9-12900F，64GB-DDR4-3000，RTX-4060Ti-16GB。
用llama.cpp的命令行.\llama-bench -m LLM模型文件 -ngl 999，进行基准评测。

模型	文件大小	参数量	架构	量化	pp512	tg128	显存占用(无视觉)	实际观察
Qwen3.5-9B-Q4_K_M.gguf	5.28 GiB	8.95B	Dense	Q4_K_M	2886.95 ± 43.07	46.79 ± 0.02		速度尚可，但容易陷入重复/死循环，稳定性较差
gemma-4-E4B-it-Q5_K_M.gguf	5.09 GiB	7.52B	Dense	Q5_K_M	4477.40 ± 126.12	65.79 ± 0.05		小模型里很均衡，速度快
gemma-4-E4B-it-UD-Q8_K_XL.gguf	8.05 GiB	7.52B	Dense	UD Q8_K_XL	4650.44 ± 185.74	44.30 ± 0.04	6.8GB	高保真量化，decode 明显变慢
gemma-4-26B-A4B-it-UD-IQ2_M.gguf	9.28 GiB	25.23B	MoE	UD IQ2_M (2.7 bpw)	2938.30 ± 19.49	89.02 ± 0.22	10.6GB	RAG表现明显更强，decode 极快
gemma-4-26B-A4B-it-UD-IQ3_S.gguf	10.43 GiB	25.23B	MoE	UD IQ3_S (3.44 bpw)	2643.51 ± 11.70	79.57 ± 0.21		更高质量量化，加载视觉后显存吃紧
gemma-4-26B-A4B-it-UD-IQ4_NL.gguf	12.48 GiB	25.23B	MoE	IQ4_NL (4.5 bpw)	2981.59 ± 106.44	67.71 ± 0.15	13.6GB	16GB显存可能无法完全加载视觉
Qwen3.6-27B-UD-IQ2_M.gguf	10.09 GiB	26.90B	Dense	UD IQ2_M (2.7 bpw)	849.07 ± 7.90	22.40 ± 0.01		Dense 27B 在16GB上明显偏重
Qwen3.6-35B-A3B-UD-IQ2_M.gguf	10.72 GiB	34.66B	MoE	UD IQ2_M (2.7 bpw)	2394.80 ± 16.46	86.45 ± 0.06	11.6GB	Qwen MoE 后速度暴增，接近 Gemma4 A4B

名词解释：

用gemma-4-26B-A4B-it-UD-IQ3_S.gguf为例子，它是一个 Gemma4 系列、260亿参数、MoE激活40亿参数、指令微调版、采用特殊动态量化、并使用 IQ3_S 3bit量化压缩的 GGUF 模型。

💡 Dense：Dense Transformer：稠密结构，所有参数层都参与推理。
💡 MoE：Mixture of Experts：混合专家结构

💡 26B：26 Billion Parameters ：260亿参数规模
💡 A4B： Active 4B： MoE结构中“激活参数”约 4B
💡 it： instruction-tuned ：指令微调版，适合聊天/问答
💡 UD： Unsloth Dynamic / Ultra Dynamic（常见推测）：一种特殊量化或动态量化方案标记，具体取决于发布者
💡 IQ3_S ：Integer Quantization 3-bit Small ：一种 3bit IQ 量化格式，IQ3比Q3更小更好，还有Q4_K，Q5_K，Q8_0等等。
💡 gguf ：GPT-Generated Unified Format：llama.cpp 使用的量化模型格式

📖 pp512 ： Prompt Processing（提示词处理阶段）输入长度为 512 tokens。
📖 tg128 ： Token Generation（逐 token 生成阶段）生成 128 个 token。

（二）实际场景

（2.1）测试内容

（2.1.1）跳舞机图片识别

测试无RAG和有RAG（DDR和PIU简介文本）情况下能否回答。

呃，为啥不加联网搜索？试过，如果没有先判断为跳舞机，模型无法用正确关键词搜，搜的结果也无意义。所以干脆给提示加RAG。

又因为用了图，所以各个模型都加载了与之配套的视觉mmproj模型。

💡 RAG：Retrieval-Augmented Generation：检索增强生成：让大语言模型在回答前先从外部知识库检索相关信息，再基于检索结果生成答案的技术。

💡 mmproj ：multimodal projector（多模态投影层）：视觉模型接入 LLM 时，用来把图像特征转换成大语言模型能理解的token向量的桥接模块。

原始图片：
需要识别的图片
问题：

请问图中他们在玩什么街机游戏？小提示，注意脚下踏板的按键数量和位置排列。

正确答案的示例：
LLM的正确回答

（2.1.2）企业文档RAG

共7个Word文档，总大小11MB左右，包含图和vsd等内容。
使用了BAAI/bge-m3，Chunk400，Overlap80,Topk3。

问题1：某某公司的某某系统支持哪些平台？
问题2：简要介绍某某系统。

（2.2）各个模型表现

gemma-4-26B-A4B-it-UD-IQ3_S 和 IQ2_M 差不太多，不单独列举了。

模型	企业文档 RAG 表现	跳舞机图片识别（无RAG）	跳舞机图片识别（有RAG/提示）	稳定性 / 特点
Qwen3.5-9B-Q4_K_M	RAG效果较弱，容易遗漏信息；随便答部分内容	只能泛化回答“体感游戏机”	因错误识别踏板为“上下左右4键”，在 DDR 与 PIU 之间反复纠结并进入死循环	小模型在视觉+推理链场景下不稳定；容易被错误前提带偏
Qwen3.6-35B-A3B-UD-IQ2_M	Word 文档 RAG 两次回答都较正常，无明显问题	错误判断为 DDR；认为踏板是“上下左右4键”布局	即使有RAG也无法纠正视觉误判，但不会进入死循环	比小Qwen稳定，不会因矛盾信息无限循环；但视觉误判会导致最终答案错误
gemma-4-E4B-it-Q5_K_M	使用相同RAG资料时，曾只回答“系统有RHEL平台”等模糊结论，信息提取能力有限	能意识到是 DDR 或 PIU 一类跳舞机，但不确定	在RAG提示帮助下，能正确判断为 PIU	小模型但推理比 Qwen3.5-9B 稳定；RAG可明显提升结果
gemma-4-26B-A4B-it-UD-IQ3_S	与 IQ2_M 类似，RAG结果准确且稳定	无需参考即可正确判断是 PIU，并指出“X型五键布局”	即使不依赖RAG也能正确识别	当前测试中视觉+推理综合能力最强；稳定性高；适合作为日常主力模型

（2.3）跳舞机关键信息（视觉）

因为千问系列的视觉部分（mmproj）模型识别出了偏差，所以导致后续回答错误。

识别线索	重要性	说明
踏板布局（5键X型）	极高	PIU 与 DDR 的核心区别
屏幕箭头与判定区	极高	最可靠视觉证据之一
`NX Absolute` 字样	较高	可直接定位到 Pump It Up NX Absolute
扶杆形状	中高	DDR 更像小写 n；PIU 更像弯曲的大写 R
机体外观	中等	可辅助判断，但改版机可能误导
玩家站姿	辅助	不足以单独判断

（2.4）总体结论

方向	观察结果
MoE架构	在16GB显存下明显优于大型 Dense 模型，速度优势巨大
RAG效果	不仅依赖检索质量，也依赖模型“读懂并利用上下文”的能力
小模型问题	容易被错误视觉前提带偏，并可能进入循环推理
大模型优势	更稳定、更善于结构化信息提取，也更不容易陷入逻辑循环
视觉识别	“先看对”比后续RAG或搜索更重要；错误视觉输入会污染整个推理链
企业文档RAG	固定chunk并不总有效；章节结构、表格、流程图本身都可能包含关键语义

（三）结束语

资源占用如图：
在这里插入图片描述

在i9-12900F，64GB-DDR4-3000，RTX-4060Ti-16GB的条件下。
暂时只能用Gemma，最大能用到 gemma-4-26B-A4B-it-UD-IQ3_S 模型了，文件大概10.43 GB，加上其它开销，占14GB多显存，20-30GB内存。

如果以后发现显存爆了，可以换IQ2模型，大概节约1GB显存。

PS：QWEN的小模型容易陷入自我否定的死循环，可见B站这里。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

【JVM虚拟机】类加载机制：类加载器、双亲委派模型、好处、破坏双亲委派的场景（附《思维导图》+《面试高频考点清单》）

AtomGit开源社区

下一个AI较量场，为什么是Harness？

业务理解一旦被 Harness 固化为可执行的 Agent 动作，这套理解的所有权，就跟着 Harness 走了，不再跟着人走。当OpenAI和DeepSeek等模型层也在补齐Agent所需要的Harness能力时，其实已经揭示了AI竞争新的评估方式：Harness能不能反向优化自家模型、有没有真实业务场景做反馈、能不能在Agent标准化之争中卡位、有没有建立基础底座承载多Agent的协作等等。而

AtomGit开源社区

5秒完成3D场景编辑，北大&港中文&上海AI Lab搞出VGGT-Edit，120倍加速太炸了

尤其是在添加家具、调整位置、修改材质这些复杂任务中，很多传统方法仍然会出现明显的“贴图感”和几何漂移，但VGGT-Edit生成的结果，会明显更像一个真实稳定的3D空间。而这件事，可能比“会生成3D”本身更重要。对于机器人、AR/VR、空间智能这些方向来说，这几乎是致命问题——这些场景真正需要的，不是“某一个角度看起来对”，而是整个3D世界始终稳定一致。对于原生3D编辑来说，这一步非常关键——模型真