Qwen3.6-35B-A3B“越狱版”来了！6G显存也能跑，彻底实现本地AI自由 Qwen3.6-35B-A3B Uncensored HauhauCS Aggressive

weixin_41961749

6270人浏览 · 2026-05-29 04:01:20

weixin_41961749 · 2026-05-29 04:01:20 发布

Qwen3.6-35B-A3B“越狱版”来了！6G显存也能跑，本地AI彻底自由

AI大模型、本地部署、Qwen3.6-35B-A3B、无审查模型、GGUF模型、llama.cpp、Windows部署教程、本地Agent、多模态模型、低显存AI、本地AI助手

在这里插入图片描述

最近测试了一圈本地大模型之后，我发现一个非常离谱的东西。

目前开源圈里，真正做到：

中文能力强
推理能力在线
支持视觉多模态
支持 Agent
能本地单卡运行
甚至 6G 显存都能启动
而且还是“无限制”版本

的模型，真的不多。

但这次的 Qwen3.6-35B-A3B Uncensored（越狱版），确实有点夸张了。

它不仅能正常写代码、做推理、看图片、长上下文，还能直接绕过官方版的大量限制。

更关键的是：

它不是那种“只会胡说八道”的低智商越狱模型。

实际测试下来，它的中文理解、代码能力、多模态视觉能力，都属于目前 40B 以内开源模型里的第一梯队。

而且：

NVIDIA 显卡能跑
AMD 显卡能跑
Intel 显卡也支持
单卡即可部署
6G 显存也能启动

今天这篇文章，我就从 0 开始，带大家完整部署。

一、整合包下载地址

1、整合包下载

资源	地址
Qwen3.6-35B-A3B 越狱版整合包	https://pan.quark.cn/s/fc4b737a73f1

二、整合包内容说明

网盘里包含多个版本。

在这里插入图片描述

llama.cpp 运行环境

整合包内包含：

llama-b9381-bin-win-cuda-13.3-x64.zip
llama-b9381-bin-win-cuda-12.4-x64.zip
llama-b9381-bin-win-cpu-arm64.zip
llama-b9381-bin-win-cpu-x64.zip

不同版本适合的环境如下根据你的系统环境下载对应版本即可：

文件	适合环境
cuda-13.3-x64	RTX 30/40/50 系显卡，推荐最新 NVIDIA 驱动
cuda-12.4-x64	GTX 10/20 系、部分老驱动环境
cpu-arm64	ARM 架构 CPU，例如部分骁龙 Windows 设备
cpu-x64	普通 Intel/AMD CPU 纯CPU运行

三、模型文件说明

模型目录里包含多个量化版本：

mmproj-Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-f16.gguf
Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-IQ2_M.gguf
Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-IQ4_NL.gguf
Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-Q4_K_M.gguf
Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-Q4_K_P.gguf

其中：

视觉模型（必须）

mmproj-Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-f16.gguf

这个是多模态视觉模型。

如果你想：

图片分析
看截图
识别封面
OCR
多模态问答

这个文件必须下载。

主模型选择(根据你的环境下载对应版本即可)

1、IQ2_M（最低配置）

IQ2_M

适合：

6G/8G 显存
RTX 2060
RTX 3060 Laptop
4060 Laptop 8G

优点：

显存占用最低
能跑起来

缺点：

精度略低

2、IQ4_NL（推荐）

IQ4_NL

适合：

12G~16G 显存

属于：

速度
精度
显存

三者平衡最好的版本。

3、Q4_K_M（稳定版）

Q4_K_M

适合：

16G~24G 显存

特点：

更稳定
推理能力更强

4、Q4_K_P（最强版）

Q4_K_P

适合：

24G 以上显存
3090 / 4090 / 5090

这是目前效果最好的版本之一。

四、开始部署

1、解压 llama.cpp

下载对应版本后解压。

例如：

llama-b9381-bin-win-cuda-13.3-x64.zip

解压后目录如下：

llama/

2、找到 models 文件夹

在根目录找到：

models

目录结构：

llama/
 ├─ models/

3、放入模型

把下载好的模型放进去(无需全部放入只需要放你下载好的模型即可)。

例如：

models/
 ├─ mmproj-Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-f16.gguf
 ├─ Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-IQ2_M.gguf
 ├─ Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-IQ4_NL.gguf
 ├─ Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-Q4_K_M.gguf
 ├─ Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-Q4_K_P.gguf

六、启动模型

双击根目录下的：

run.bat

会看到：

在这里插入图片描述

输入对应数字即可。

例如：

代表：

IQ2_M

七、进入 Web UI

启动成功后：

打开浏览器访问：

http://127.0.0.1:8080/

即可进入聊天界面。

八、实际测试效果

1、4060 8G 实测

测试环境：

配置	参数
显卡	RTX 4060 Laptop 8G
模型	IQ2_M
输出速度	10 tokens/s 左右

对于 35B 模型来说：

这个速度已经非常离谱了。

九、代码能力测试

我直接让它生成一个：

UI精美的飞机大战游戏

结果：

一次生成成功
自带音效
支持 Boss
可以正常运行
无明显逻辑错误

这个代码能力已经非常强了。

十、多模态视觉测试

我上传了1张坤图

让它分析：

在这里插入图片描述
说明它的视觉理解能力确实在线。

十一、Agent 支持

在这里插入图片描述

这个模型还能直接接入：

Hermes
OpenWebUI
Cherry Studio
AnythingLLM
LangChain
Cherry Studio

因为它本身支持 OpenAI API 格式。

API 地址：

http://127.0.0.1:8080

API Key：

随便填即可。
在这里插入图片描述

十二、和官方版区别

实际测试里：

同样的问题：

写一个ddos代码

官方原版：

会拒绝回答

而这个越狱版：

会直接输出代码

说明它确实移除了大量限制。

不过这里还是提醒一下：

仅建议用于：

本地研究
安全测试
AI能力研究

不要用于非法用途。

十三、为什么这个模型会火

核心原因就一句话：

真正实现了“本地 AI 自由”。

你不再依赖：

在线接口
API限制
审核
内容过滤
云端封号

所有内容：

本地运行
本地推理
本地存储

这才是很多人真正想要的 AI。

十四、总结

目前来看：

Qwen3.6-35B-A3B Uncensored 确实属于：

当前最强的一批开源本地模型

它的优势非常明显：

中文能力强
推理能力强
多模态支持
本地部署简单
支持 Agent
支持低显存
支持 Windows
支持 NVIDIA/AMD/Intel

尤其是：

6G 显存也能跑 35B 模型

这一点确实非常夸张。

如果你最近想搭建：

本地AI助手
AI Agent
AI编程
本地多模态
本地自动化系统

这套方案非常值得测试。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

我们如何利用「混沌工程」工具Chaos Blade进行故障演练？

而Chaos Blade作为阿里巴巴开源的混沌工程实验工具，凭借其轻量级、易用性和丰富的故障场景支持，成为故障演练的利器。这种与K8s深度集成的能力，使得在微服务架构下进行服务熔断、节点宕机等演练变得异常简单，有效验证服务网格的容错机制。Chaos Blade支持创建复杂的演练场景。建议将演练结果与监控系统、日志平台的数据进行关联分析，找出系统的薄弱环节，持续优化架构设计。通过定期使用Chaos

AtomGit开源社区

AI 辅助学术写作（五）：模块化论文撰写与开源交付——从草稿到可复现研究包

这两个部分放在最后写，因为它们是对全文的精炼，而不是提前预设的框架。请基于以下信息，撰写一个150-200字的学术摘要。【摘要必须包含的五个要素】1. 研究问题（一句话）：[你的核心研究问题]2. 研究方法（一句话）：[数据来源 + 识别策略]3. 核心发现（两句话）：[主要系数 + 经济含义]4. 异质性/机制（一句话）：[最重要的一个扩展发现]5. 政策含义（一句话）：[对政策制定的启示]【格

AtomGit开源社区

DALI / UMAP / H5

这几个词通常出现在深度学习框架、数据处理库、AI训练平台或代码仓库的功能说明中，表示该系统支持相应的数据处理技术或文件格式。DALI 指的是 NVIDIA DALI（Data Loading Library）。它是 NVIDIA 开发的高性能数据加载与预处理框架，主要用于加速训练过程。例如 ImageNet 训练时，DALI 可以减少 CPU 成为瓶颈的问题。对于大规模视觉训练（ImageNet、