本地无限Token！8G显存成功跑 Qwen3.6-35B AI大模型！附部署教程

俩娃的爸爸

508人浏览 · 2026-05-23 16:14:52

俩娃的爸爸 · 2026-05-23 16:14:52 发布

大家好，这里是硅谷茶馆。

最近本地大模型圈子出现新玩法了：手头只有8G-12G显存的老卡，还能玩上最新最强的开源模型吗？

翻出来我的8G显卡，实测了Qwen3.6-35B这个MoE架构的新模型。结果让我惊喜：不仅成功跑通，还接入了Hermes搭建本地全能助手。视觉能力在某些场景下表现突出，生成速度也比较稳定。今天就把这套经过验证的方案分享给大家。

一、为什么低显存也能跑35B？

Qwen3.6-35B采用MoE（混合专家）架构，总参数35B，但每次实际只激活约3B左右的参数，相当于跑一个“超大号轻量模型”。再配合llama.cpp的异构推理，把部分计算卸载到系统内存，就能大幅降低对显存的需求。

我用8G显存+32G内存，日常使用完全可行。模型还支持原生256K超长上下文，特别适合做Agent和长对话。

二、实际表现如何？

它生成带简单特效的前端代码时，逻辑也比较完整，直接可用。据测试，Qwen3.6在某些Agent评测中表现优秀，速度比前代有明显提升。开源模型这次确实进步很大，让我们这些普通硬件用户也能享受到接近顶流的体验。

保姆级部署流程（Windows环境）

硬件建议：

NVIDIA显卡，8G-12G显存（3070、4060等）
内存32G或以上
Windows 10/11系统

三、实操部署

第一步：安装llama.cpp

按Win+R打开cmd，输入以下命令安装（Windows系统）：

winget install llama.cpp

第二步：下载模型

在cmd中输入下面指令自动下载（约20G）：

llama-server -hf Abiray/Qwen3.6-35B-A3B-Q4_K_M-GGUF:Q4_K_M

模型会下载到默认缓存路径：C:\Users\你的用户名.cache\huggingface\hub，如果磁盘不足，可以安装到D盘某个路径下，例如：

$env:HF_HOME = "D:\AI\huggingface_cache" $env:LLAMA_CACHE = "D:\AI\llama_cache" llama-server -hf Abiray/Qwen3.6-35B-A3B-Q4_K_M-GGUF:Q4_K_M

指定加载模型路径：

llama-server --models-dir D:\AI\ggufModels -hf Abiray/Qwen3.6-35B-A3B-Q4_K_M-GGUF:Q4_K_M

第三步：启动模型

下载完成后，输入以下命令启动Web界面：

llama-server -m "你的模型完整路径\Qwen3.6-35B-A3B-Q4_K_M.gguf" --webui

看到提示“server is listening on http://127.0.0.1:8080”时，在浏览器打开这个地址即可使用。

在浏览器打开就会启动模型页面：

**推荐启动脚本（更稳定）：**在llama.cpp目录新建start_ai.bat文件，内容如下（修改路径）：

@echo off
chcp 65001 >nul
cd /d "你的llama.cpp路径\bin\cuda"
llama-server.exe ^
-m "models\Qwen3.6-35B-A3B-Q4_K_M.gguf" ^
-ngl 99 ^
-ncpu-moe 999 ^
-flash-attn on ^
-c 32768 ^
-t 12 ^
--mlock ^
--host 127.0.0.1 ^
--port 8080
pause

关键参数说明：

-ngl 99：尽量使用GPU
-ncpu-moe 999：把专家层放到内存，适合低显存
–mlock：锁定内存防卡顿

第四步：接入Hermes搭建助手

启动后，你可以在Web界面直接聊天。如果想玩Agent系统，可以接入Hermes等工具，把模型变成本地全能助手，支持更复杂的任务链。

hermes接入本地模型的方法可以看我之前文章

告别Token焦虑！本地部署Hermes + Qwen3.6，打造你的私人AI助理

使用小贴士

首次加载需要耐心等待1-2分钟。
显存紧张时可适当降低上下文长度。
模型文件建议从Hugging Face可靠来源下载，版本以官方最新为准。
生成速度受硬件影响，8G显存下大概15-25 tokens/s，够日常使用。

过去高性能AI似乎是高端配置的专属，现在通过优化，本地部署门槛越来越低。一张二手老卡+足够内存，就能拥有隐私安全、随时可用的强大助手。

写在最后：

如果你也想试试，欢迎在评论区分享你的配置和遇到的问题，我看到会回复解答。

科技的乐趣，就是把前沿工具变成每个人都能上手的东西。如果对茶馆的分享感兴趣欢迎点赞、转发、关注，感谢大家！！！
在这里插入图片描述

（文中路径和参数请根据实际情况微调，llama.cpp版本更新较快，建议参考官方文档。）

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

【多模态大模型系列·第 06 篇·终篇】未来与挑战：世界模型·具身智能·AGI——多模态的终局在哪里

AtomGit开源社区

【字节跳动】杭州余杭智算中心硬件设备全规格白皮书

AtomGit开源社区

Linux 组调度的 idle_h_nr_running：空闲组任务数统计

AtomGit开源社区

所有评论(0)

查看更多评论

俩娃的爸爸

@qq_34004131

已为社区贡献7条内容

本地无限Token！8G显存成功跑 Qwen3.6-35B AI大模型！附部署教程

俩娃的爸爸

一、为什么低显存也能跑35B？

二、实际表现如何？

保姆级部署流程（Windows环境）

第二步：下载模型

第三步：启动模型

第四步：接入Hermes搭建助手

使用小贴士

所有评论(0)

温馨提示：您尚未绑定手机号

俩娃的爸爸