手把手带你部署本地模型，让你Token自由（小白专属）

oioihoii

729人浏览 · 2026-04-12 20:46:19

oioihoii · 2026-04-12 20:46:19 发布

本教程包括不同显卡配置可以安装哪种大模型的对照表、3步安装本地模型图文教程、本地模型使用进阶示例三大模块

本地部署模型在内网开发时，无需外网即可提供代码补全、日志分析等AI能力，避免敏感数据外泄；在出差或网络不稳时（如高铁、偏远现场），可离线运行，保障开发不中断。相比云端API，它规避了合规风险与计费成本，只需一台4GB显存的笔记本就能流畅运行Gemma-4B等小模型，实现“随时随地、安全可控”的智能辅助。

在一切开始前，一定要先安装QClaw

一、Gemma 4 本地安装速查表

全系列模型 × 显存对照表

显存 (VRAM)	代表显卡	Gemma 1	Gemma 2	Gemma 3	Gemma 4
2 GB	核显 / MX450	✅ 2B (~1.5GB)	✅ 2B (~1.5GB)	✅ 1B (~1GB)	✅ E2B (~1.5GB)
4 GB	GTX 1650/1660	✅ 2B ⚠️ 7B(紧凑)	✅ 2B 9B(勉强)	✅ 1B 4B(~3.5GB)	✅ E2B E4B(~3.5GB)
6 GB	RTX 2060	✅ 2B 7B(~5.5GB)	✅ 2B 9B(~6.5GB)	✅ 4B 12B(紧凑)	✅ E2B E4B
8 GB	RTX 3060/4060	✅ 全部 Q4	✅ 9B(~6.5GB)	✅ 4B 12B(~8GB)	✅ E4B 26B MoE(紧凑)
12 GB	RTX 3060 12G	✅ 全部 FP16	✅ 27B(Q4)	✅ 12B 27B(紧凑)	✅ 26B MoE 31B(Q4)
16 GB	RTX 4080	—	✅ 27B(Q4)	✅ 12B 27B(紧凑)	✅ 26B MoE 31B(Q4)
24 GB	RTX 3090/4090	—	✅ 27B(FP16)	✅ 27B(FP16)	✅ 31B(FP16)

Gemma 4 输入输出能力对照表

模型	参数量	上下文长度	📥 输入能力	📤 输出能力
E2B	23亿 (有效) 51亿 (含嵌入)	128K	文本 ✅ 图片/视频 ✅ 音频 ✅	文本/代码 ✅ 图片/视频/音频 ❌
E4B	45亿 (有效) 79亿 (含嵌入)	128K	文本 ✅ 图片/视频 ✅ 音频 ✅	文本/代码 ✅ 图片/视频/音频 ❌
26B MoE	260亿 (总量) 38-40亿 (激活)	256K	文本 ✅ 图片/视频 ✅ 音频 ❌	文本/代码 ✅ 图片/视频/音频 ❌
31B	310亿 (密集)	256K	文本 ✅ 图片/视频 ✅ 音频 ❌	文本/代码 ✅ 图片/视频/音频 ❌

二、让你三步拥有自己的本地模型

第一步了解本地环境可以安装哪些模型

主要是借助QClaw，让它来检查你的电脑状态，推荐你安装的模型，询问话术如下：

我的电脑可以安装gemma4本地模型吗？可以安装多大的？

在QCalw推荐完成后，让它自己来安装

你来安装

第二步按照教程安装

由于权限等原因，它有时候会给你详细的步骤让你来安装，如上图，推荐直接根据方案二来安装

LM Studio下载

下载完成后LM会默认推荐本机可以使用的最大模型，可以看一下和Qcalw推荐的是不是一致，然后直接下载安装就可以

等待就好~

第三步安装成功，开始交流

当然你更习惯中文的话可以在修改中设置界面为中文!

三、高阶拓展

如果你想让本地的模型能够在其他软件内使用，可以获取它的token，步骤如下：

1、打开服务

2、点击服务设置，Token管理

新建

输入名称->新建

保存好Token，现在你就可以在其他软件内使用你的本地模型了

本地Token便捷使用指南

你可以寻找别人的开源工具本地安装后配置上述Token使用，当然你也可以直接告诉QClaw让它给你写一个聊天界面，方便你每次开机直接使用

构建一个前后端分离的 PWA 应用，前端使用 React + TypeScript + Vite PWA 插件，后端使用 FastAPI + SSE 流式响应，核心功能包括：从本地指定文件读取 Token、支持 Gemma 4 多模型选择、可开关的“思考模式”参数、对话历史记录的增删改查与持久化存储、通过 AbortController 实现对话中断、以及完整的 PWA 可安装与离线缓存能力；模型调用采用 OpenAI 兼容 API 方式对接本地 LM Studio 部署，后端仅作为中转与历史管理，从而实现完全本地化、可控、高可用的模型聊天界面。

我的QClaw开发效果如下，本地安装后每次开机都可以直接打开：

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

计及需求响应与多能存储的综合能源系统分布鲁棒优化调度模型（Matlab代码实现）

在 “双碳” 战略加速推进与新型电力系统加快构建的时代背景下，综合能源系统凭借多能互补、供需协同的运行模式，成为提升能源利用效率、促进可再生能源高比例消纳的关键载体。然而，风电、光伏出力固有的间歇性、随机性与波动性，以及用户侧电、热负荷的实时动态变化，给系统安全稳定与经济高效运行带来严峻挑战；同时，传统不确定性优化方法在概率分布未知、历史数据有限的实际场景中，难以实现经济性与鲁棒性的协同最优。为此

AtomGit开源社区

考虑局部遮阴的光伏PSO-MPPT控制模型（Simulink仿真实现）

光伏电池阵列的输出特性曲线呈现非线性变化。在光伏电池被遮挡时，产生的功率会不断波动，导致光伏电池阵列的输出功率也在不断变化，呈现出多峰值的特征。多峰值最大功率点跟踪（MPPT）技术的出现是由光伏发电系统失配问题引起的。当光伏发电系统失配时，其功率-电压输出特性曲线会呈现多个峰值，传统的单峰值MPPT控制算法可能只能追踪到局部最大功率点，而非全局最大功率点，导致算法失效，从而降低光伏发电系统的输出功