1.实名制 + 额度双重墙怎么破

这个,红色提示,对于使用Claude Code 的应该不陌生:

You've reached your usage limit. Please try again in 3 hours.

这一刻我才意识到一个问题——我们对 Claude Code 的依赖,已经和对 Git 的依赖差不多了。但它和 Git 不一样,Git 离线照样能跑,Claude Code 一旦断供,你只能干瞪眼。

时间

Anthropic 动作

开发者体感

2025 Q3

Pro 订阅从"软限"改"硬限",引入 5 小时窗

集中写代码 1~2 小时就可能触顶

2025 Q4

增加周级别限流(weekly limit)

周末加班一把梭哈,周一直接封到下周

2026 Q1

Claude Code 在订阅里的额度单独计算

聊天还有余额,Code 已罢工

2026 Q1

Opus 4.5+ 在 Pro 档位下被进一步降权

想用最强模型写代码,基本只能上 Max 档

现在的订阅实际体感:

  • Pro($20/月):Claude Code 日常大概够用半天,遇到大重构撑不到 2 小时。

  • Max 5×($100/月):中度使用够用,但 Opus 仍有独立上限。

  • Max 20×($200/月):重度使用勉强够,"无限用"是过去式。

  • API 按量:Opus 4.5 约 百万输入75 / 百万输出,一次重构就是几十美金。

对海外开发者来说,Claude 顶多是"有点贵、偶尔限流";KYC的认证,对国内开发者,又叠加了一个新的高难度buff。

图片

遇到这个问题,怎么解决呢,能不能在本地跑个模型试试?带着以上的问题,在自己的环境尝试了一下波

我测试的主要原因是,我将AI分析集成到了一个运维系统中,导入实际数据运行,导致token用得刷刷得,Max账号都顶不住,用API的话,烧钱太快。导致我后续的思路研发受阻。

再补充,后续思路: 查询业务系统中的报错,对报错信息进行归类,能够快速识别出系统运行过程中有没有问题。这里的报错日志量很大,用claude 的公用模型,扛不住,而且做的是数据归类和反馈,分析简单,用本地模型应该扛得住。

2.整体方案

这是破局的关键认知。

Claude Code 的 CLI,负责的是"解析你的输入、组装 Messages 请求、调度工具调用、渲染输出"。至于请求发到哪、谁来回答,它并不关心——只要对面能说 Anthropic Messages API 这门协议就行。

它决定"请求发到哪",只看这 4 个环境变量:

环境变量

作用

换后端时怎么填

ANTHROPIC_BASE_URL

模型服务的地址

指向本地或第三方地址

ANTHROPIC_AUTH_TOKEN

给后端用的鉴权 Token

后端需要啥就填啥

ANTHROPIC_MODEL

默认调用哪个模型

后端实际支持的模型名

ANTHROPIC_API_KEY

Anthropic 官方 Key

必须置空,不然会绕过前面三个直接回连官方

一张图看明白整个架构——同一个 Claude Code CLI,靠改一个 BASE_URL,就能把请求分流到完全不同的后端:

图片

2.1 后端选项对比

看完原理,下面三条路都能走:

因为 Ollama 同时破掉两堵墙:

  • 零身份要求:不需要任何账号,Ollama 就是一个本地二进制程序

  • 零额度限制:跑的是本机的开源模型,只要电费管够随便用

  • 零数据外传:代码不出本机,满足大多数公司的合规要求

  • 零配置成本:30 分钟内能跑起来,不需要学新的 API 协议

代价:对硬件有门槛(32GB 内存起步),质量不如 Opus 4.5,但作为"实名+额度双重墙下的保底选项",是当前最扎实的答案。

下面我们把 Ollama 这条路走完整。

3.Ollama 安装与Claude 配置运行

3.1 硬件门槛(必须先看)

配置

能不能跑

能跑什么

体验

16GB 内存,集成显卡

7B 以下小模型

勉强,代码补全都慢,不推荐

32GB 内存(M1/M2/M3 Mac 或 Win + RTX 4070+)

推荐

24B~30B 代码模型

日常编码够用

64GB 内存 + RTX 4090

舒服

30B~70B

接近 Sonnet 体感

工作站级(DGX Spark / A100)

起飞

70B+ bf16

接近 Opus 4.5

如果你是 16GB 内存的打工笔记本,直接跳到本文末尾看"补充方案",硬上只会劝退。

图片

3.2 安装 Ollama(三平台)

macOS / Linux(一条命令):

curl -fsSL https://ollama.com/install.sh | sh

Windows:从 https://ollama.com/download 下载 OllamaSetup.exe,双击安装。安装完开始菜单里会有 Ollama,启动后系统托盘会出现一个小羊驼图标,表示服务已经在监听 localhost:11434。

图片

然后你选择一个模型,随便输入一个内容,有数据回馈,就证明成了,恭喜大佬。

你也可以使用cli命令行进行验证

ollama --version
# 正常输出类似:ollama version is 0.5.x
 
curl http://localhost:11434/api/tags
# 正常输出:{"models":[]}

两条都通,Ollama 就装好了。

3.3 拉一个能写代码的模型

Ollama 模型广场在 https://ollama.com/library 。别上来就拉 70B 大模型,先拉一个 30B 以内的代码专项模型跑通流程再说。推荐三个:

模型

拉取命令

磁盘占用

内存占用

特点

qwen3-coder:30b

ollama pull qwen3-coder:320b

约 20GB

约 24GB

中文注释友好,代码任务 SOTA 级开源

deepseek-coder-v2:16b

ollama pull deepseek-coder-v2:16b

约 9GB

约 12GB

轻量,16GB 内存也能勉强跑

devstral-small:24b

ollama pull devstral-small:24b

约 14GB

约 18GB

专门为代理工作流训练,工具调用稳

以 qwen3-coder:30b 为例:

ollama pull qwen3-coder:30b
# 等待下载完成,大概 10~30 分钟,取决于网速

ollama list
# 应该能看到 qwen3-coder:30b 出现在列表里

当然,你也可以在程序中点击:

图片

3.4 配置 Claude Code 的 4 个环境变量

打开 ~/.zshrc(Mac/Linux)或 ~/.bashrc,在末尾加:

# === Claude Code 指向本地 Ollama ===
export ANTHROPIC_BASE_URL="http://localhost:11434"
export ANTHROPIC_AUTH_TOKEN="ollama"   # Ollama 不校验,填啥都行,但不能空
export ANTHROPIC_MODEL="qwen2.5-coder:32b"
export ANTHROPIC_API_KEY=""            # 关键:必须显式置空

这里有一个坑 99% 的人会踩:你以为写了 ANTHROPIC_AUTH_TOKEN 就够了,但 SDK 内部优先读 ANTHROPIC_API_KEY。如果你系统里之前设过这个变量(比如用过官方 API),它会绕过前面三个,直接回连 api.anthropic.com。所以第四行必须显式 export ANTHROPIC_API_KEY=""。

3.5 启动 Claude Code

cd /path/to/your/project
claude

如果看到 Claude Code 正常启动、命令行提示符出现,说明环境变量已经被读到。进入一个简单的对话,或者用/status进行状态查看:

> /status

图片

4.验证与测试

环境好了,接下来就是使用,具体好不好用,实际跑一波。

先说结论:本地还是不行,性能,准确率,都待加强啊。

4.1 测试环境说明

对AI 说:你写一个冒泡排序的案例代码,使用python,需要可运行的demo。同步记录下我从发送需求到你全部完成所用的时间,精确到秒,不需要复用历史记录。

使用的设备信息:

  • Mac Mini,M4 Pro,MEM 48G,

  • 使用的模型为: Gemma4:26b

图片

4.2 测试情况

使用claude 调用本地模型跑出来的运行截图。

图片

看到1s,是不是感觉超级好用啊。但是,实际他跑了1分20s,一言难尽。

4.3 对比实验情况

做对比实验:使用Claude 的官方平台资源,跑同样的内容。7s,信息非常准确,而且还提供了数据的输入输出结果。

图片

再来对比实验:直接使用ollama调用模型测试,显示结果为3s,实际为28s(我掐表的)。

图片

图片

运行期间主机的使用情况:

图片

对应参数解读:

图片

5.结论:能用,但还不成熟

从测试结果能看出来,使用本地的模型是完全可以支撑的。但是在速度和准确率方面,还欠火候,得砸钱升级GPU跑更好的模型来提高正确率,以及提高token处理速度。

建议:不是对抗,是多活。这套方案不是要让你抛弃官方 Claude。

官方 Opus 4.5 在复杂重构、架构决策上的质量,目前任何开源 32B 模型都还追不上。但对于中国开发者来说,我们真正要建立的是一条底线可用的备份链路:

  • 实名 + 额度都畅通时:用官方 Claude,速度+质量最优

  • 遇到限流、封号、出差断网、内网涉密:切到本地 Ollama,export 三行搞定

  • 预算有限但想用强模型:走 OpenRouter / 智谱 / MiniMax 的第三方聚合

这三条腿同时存在,才是真正的"不会被卡脖子"。

给同样在和实名制、额度斗智斗勇的朋友一个最小 checklist:

  • 装好 Ollama(一条 curl)

  • 拉一个 24B~32B 代码模型

  • zshrc 里加 4 行 export(尤其第 4 行置空 API_KEY)

  • 跑一次读文件 + 改 bug 的测试

  • 把环境变量注释掉,等真需要时再 uncomment

这些准备做完,下一次 Claude Code 弹 usage limit 或者账号被风控时,你只需要打开终端,敲四行 export,然后继续写代码。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐