Claude Code 额度用完别急着掏钱：4 个环境变量，让它跑在你自己的电脑上

涤生大数据

256人浏览 · 2026-05-07 09:56:35

涤生大数据 · 2026-05-07 09:56:35 发布

1.实名制 + 额度双重墙怎么破

这个，红色提示，对于使用Claude Code 的应该不陌生：

You've reached your usage limit. Please try again in 3 hours.

这一刻我才意识到一个问题——我们对 Claude Code 的依赖，已经和对 Git 的依赖差不多了。但它和 Git 不一样，Git 离线照样能跑，Claude Code 一旦断供，你只能干瞪眼。

时间	Anthropic 动作	开发者体感
2025 Q3	Pro 订阅从"软限"改"硬限"，引入 5 小时窗	集中写代码 1～2 小时就可能触顶
2025 Q4	增加周级别限流（weekly limit）	周末加班一把梭哈，周一直接封到下周
2026 Q1	Claude Code 在订阅里的额度单独计算	聊天还有余额，Code 已罢工
2026 Q1	Opus 4.5+ 在 Pro 档位下被进一步降权	想用最强模型写代码，基本只能上 Max 档

现在的订阅实际体感：

Pro（$20/月）：Claude Code 日常大概够用半天，遇到大重构撑不到 2 小时。
Max 5×（$100/月）：中度使用够用，但 Opus 仍有独立上限。
Max 20×（$200/月）：重度使用勉强够，"无限用"是过去式。
API 按量：Opus 4.5 约百万输入75 / 百万输出，一次重构就是几十美金。

对海外开发者来说，Claude 顶多是"有点贵、偶尔限流"；KYC的认证，对国内开发者，又叠加了一个新的高难度buff。

遇到这个问题，怎么解决呢，能不能在本地跑个模型试试？带着以上的问题，在自己的环境尝试了一下波

我测试的主要原因是，我将AI分析集成到了一个运维系统中，导入实际数据运行，导致token用得刷刷得，Max账号都顶不住，用API的话，烧钱太快。导致我后续的思路研发受阻。

再补充，后续思路：查询业务系统中的报错，对报错信息进行归类，能够快速识别出系统运行过程中有没有问题。这里的报错日志量很大，用claude 的公用模型，扛不住，而且做的是数据归类和反馈，分析简单，用本地模型应该扛得住。

2.整体方案

这是破局的关键认知。

Claude Code 的 CLI，负责的是"解析你的输入、组装 Messages 请求、调度工具调用、渲染输出"。至于请求发到哪、谁来回答，它并不关心——只要对面能说 Anthropic Messages API 这门协议就行。

它决定"请求发到哪"，只看这 4 个环境变量：

环境变量	作用	换后端时怎么填
ANTHROPIC_BASE_URL	模型服务的地址	指向本地或第三方地址
ANTHROPIC_AUTH_TOKEN	给后端用的鉴权 Token	后端需要啥就填啥
ANTHROPIC_MODEL	默认调用哪个模型	后端实际支持的模型名
ANTHROPIC_API_KEY	Anthropic 官方 Key	必须置空，不然会绕过前面三个直接回连官方

一张图看明白整个架构——同一个 Claude Code CLI，靠改一个 BASE_URL，就能把请求分流到完全不同的后端：

2.1 后端选项对比

看完原理，下面三条路都能走：

因为 Ollama 同时破掉两堵墙：

零身份要求：不需要任何账号，Ollama 就是一个本地二进制程序
零额度限制：跑的是本机的开源模型，只要电费管够随便用
零数据外传：代码不出本机，满足大多数公司的合规要求
零配置成本：30 分钟内能跑起来，不需要学新的 API 协议

代价：对硬件有门槛（32GB 内存起步），质量不如 Opus 4.5，但作为"实名+额度双重墙下的保底选项"，是当前最扎实的答案。

下面我们把 Ollama 这条路走完整。

3.Ollama 安装与Claude 配置运行

3.1 硬件门槛（必须先看）

配置	能不能跑	能跑什么	体验
16GB 内存，集成显卡	能	7B 以下小模型	勉强，代码补全都慢，不推荐
32GB 内存（M1/M2/M3 Mac 或 Win + RTX 4070+）	推荐	24B～30B 代码模型	日常编码够用
64GB 内存 + RTX 4090	舒服	30B～70B	接近 Sonnet 体感
工作站级（DGX Spark / A100）	起飞	70B+ bf16	接近 Opus 4.5

如果你是 16GB 内存的打工笔记本，直接跳到本文末尾看"补充方案"，硬上只会劝退。

3.2 安装 Ollama（三平台）

macOS / Linux（一条命令）：

curl -fsSL https://ollama.com/install.sh | sh

Windows：从 https://ollama.com/download 下载 OllamaSetup.exe，双击安装。安装完开始菜单里会有 Ollama，启动后系统托盘会出现一个小羊驼图标，表示服务已经在监听 localhost:11434。

然后你选择一个模型，随便输入一个内容，有数据回馈，就证明成了，恭喜大佬。

你也可以使用cli命令行进行验证

ollama --version
# 正常输出类似：ollama version is 0.5.x
 
curl http://localhost:11434/api/tags
# 正常输出：{"models":[]}

两条都通，Ollama 就装好了。

3.3 拉一个能写代码的模型

Ollama 模型广场在 https://ollama.com/library 。别上来就拉 70B 大模型，先拉一个 30B 以内的代码专项模型跑通流程再说。推荐三个：

模型	拉取命令	磁盘占用	内存占用	特点
qwen3-coder:30b	ollama pull qwen3-coder:320b	约 20GB	约 24GB	中文注释友好，代码任务 SOTA 级开源
deepseek-coder-v2:16b	ollama pull deepseek-coder-v2:16b	约 9GB	约 12GB	轻量，16GB 内存也能勉强跑
devstral-small:24b	ollama pull devstral-small:24b	约 14GB	约 18GB	专门为代理工作流训练，工具调用稳

以 qwen3-coder:30b 为例：

ollama pull qwen3-coder:30b
# 等待下载完成，大概 10～30 分钟，取决于网速

ollama list
# 应该能看到 qwen3-coder:30b 出现在列表里

当然，你也可以在程序中点击:

3.4 配置 Claude Code 的 4 个环境变量

打开 ~/.zshrc（Mac/Linux）或 ~/.bashrc，在末尾加：

# === Claude Code 指向本地 Ollama ===
export ANTHROPIC_BASE_URL="http://localhost:11434"
export ANTHROPIC_AUTH_TOKEN="ollama"   # Ollama 不校验，填啥都行，但不能空
export ANTHROPIC_MODEL="qwen2.5-coder:32b"
export ANTHROPIC_API_KEY=""            # 关键：必须显式置空

这里有一个坑 99% 的人会踩：你以为写了 ANTHROPIC_AUTH_TOKEN 就够了，但 SDK 内部优先读 ANTHROPIC_API_KEY。如果你系统里之前设过这个变量（比如用过官方 API），它会绕过前面三个，直接回连 api.anthropic.com。所以第四行必须显式 export ANTHROPIC_API_KEY=""。

3.5 启动 Claude Code

cd /path/to/your/project
claude

如果看到 Claude Code 正常启动、命令行提示符出现，说明环境变量已经被读到。进入一个简单的对话，或者用/status进行状态查看：

> /status

4.验证与测试

环境好了，接下来就是使用，具体好不好用，实际跑一波。

先说结论：本地还是不行，性能，准确率，都待加强啊。

4.1 测试环境说明

对AI 说：你写一个冒泡排序的案例代码，使用python，需要可运行的demo。同步记录下我从发送需求到你全部完成所用的时间，精确到秒，不需要复用历史记录。

使用的设备信息：

Mac Mini，M4 Pro，MEM 48G，
使用的模型为： Gemma4:26b

4.2 测试情况

使用claude 调用本地模型跑出来的运行截图。

看到1s，是不是感觉超级好用啊。但是，实际他跑了1分20s，一言难尽。

4.3 对比实验情况

做对比实验：使用Claude 的官方平台资源，跑同样的内容。7s，信息非常准确，而且还提供了数据的输入输出结果。

再来对比实验：直接使用ollama调用模型测试，显示结果为3s，实际为28s（我掐表的）。

运行期间主机的使用情况：

对应参数解读：

5.结论：能用，但还不成熟

从测试结果能看出来，使用本地的模型是完全可以支撑的。但是在速度和准确率方面，还欠火候，得砸钱升级GPU跑更好的模型来提高正确率，以及提高token处理速度。

建议：不是对抗，是多活。这套方案不是要让你抛弃官方 Claude。

官方 Opus 4.5 在复杂重构、架构决策上的质量，目前任何开源 32B 模型都还追不上。但对于中国开发者来说，我们真正要建立的是一条底线可用的备份链路：

实名 + 额度都畅通时：用官方 Claude，速度+质量最优
遇到限流、封号、出差断网、内网涉密：切到本地 Ollama，export 三行搞定
预算有限但想用强模型：走 OpenRouter / 智谱 / MiniMax 的第三方聚合

这三条腿同时存在，才是真正的"不会被卡脖子"。

给同样在和实名制、额度斗智斗勇的朋友一个最小 checklist：

装好 Ollama（一条 curl）
拉一个 24B～32B 代码模型
zshrc 里加 4 行 export（尤其第 4 行置空 API_KEY）
跑一次读文件 + 改 bug 的测试
把环境变量注释掉，等真需要时再 uncomment

这些准备做完，下一次 Claude Code 弹 usage limit 或者账号被风控时，你只需要打开终端，敲四行 export，然后继续写代码。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

【轴承故障诊断】一种用于轴承故障诊断的稀疏贝叶斯学习（SBL），两种群稀疏学习算法来提取故障脉冲，第一种仅利用故障脉冲的群稀疏性，第二种则利用故障脉冲的额外周期性行为（Matlab代码实现）

在强背景噪声和/或多重干扰下提取故障脉冲是轴承故障诊断的一项具有挑战性的任务。稀疏表示已被广泛应用于提取故障脉冲，并且能够实现最先进的性能。然而，大多数当前的方法依赖于精心调整多个超参数，并且由于近似正则化和/或启发式稀疏模型可能会遭受算法退化的可能性。为了克服这些缺点，本文提出了一种用于轴承故障诊断的稀疏贝叶斯学习（SBL）框架，然后提出了两种群稀疏学习算法来提取故障脉冲，其中第一种仅利用故障脉

AtomGit开源社区

智能体的可废止推理：当新信息出现时如何优雅地改变计划

当前大模型驱动的智能体系统普遍存在「计划脆性」问题：一旦环境出现未预期的新信息，要么僵化执行原有计划导致失败，要么无规则随机调整引发不可控风险。可废止推理作为非单调逻辑的核心分支，为解决这一痛点提供了系统化的理论与技术框架：它允许智能体基于不完备信息得出临时结论，当新的废止性证据出现时，可合法推翻原有结论并同步调整计划，整个过程符合人类常识推理逻辑，具备可解释、可审计、可管控的特性。

AtomGit开源社区

基于模型预测控制的波浪能转换器（WEC）研究（Matlab代码实现）

本文模拟从波浪能转换器（WEC）中提取的能量，当受控移动窗口阻塞 MPC 时，单设备。它还比较了使用标准MPC和GPC控制时WEC提取的能量。摘要：海浪能是可再生能源最集中的来源之一。然而，到目前为止，它还没有达到商业化所需的经济可行性。为了提高波浪能转换器的效率，已经提出了几种先进的控制策略，包括模型预测控制（MPC）。然而，每个优化问题的计算负担都是传统（全自由度）MPC的缺点，这通常会