数字芯片设计的行业现状:工程师要么还在坚守“古法写代码”,要么只能外网让 AI 写完后再艰难传进内网。其实 fabless 集群中常见的“多核、无 GPU”服务器已经可以轻松跑 Codex + 本地大模型,内网部署后,芯片设计工程师再也不用对着外网 AI 生成的代码一个一个字母敲了!


前言

上一篇文章里我们介绍了如何在 fabless 芯片设计公司内网部署 OpenClaw 这个通用的 AI Agent。但对于明确的编写代码任务,其实我们也可以在内网纯 CPU 服务器上部署像 OpenAI Codex 这类编程专用的 AI Agent。


一、Codex 相比 Claude Code 在内网的优势

在 AI 编程框架中,Claude Code 显然比 Codex 更为知名。但在芯片设计公司内网部署时,Codex 相校 Claude Code 反而具备其独特优势:初始提示词更少。

当启动 AI Agent 后,LLM 框架的第一个运行步骤就是处理输入提示词(Prefill) 。对新一代的显卡,如 30 系的 NV 显卡或苹果 M5 内置的 GPU,都已包含了 Tensor Core 硬件,可对 Prefill 进行大幅加速。

但在芯片设计公司内网的无 GPU 的服务器上处理这些提示词时,Prefill 的处理速度会比具有 Tensor Core 的硬件慢很多,通常只能跑到 50-100 token/s。Codex 的初始提示词只有 4600 个token 左右,而 Claude Code 可多达 30000 个,因此 Codex 在纯 CPU 上要跑得“轻快”很多。

二、Codex 的安装以及与本地大模型的对接

1. Codex 安装:认准 v0.94 版

Codex 的安装比较简单,通过 npm 就可以直接装好。但最新的 Codex 只支持 Response API,目前还没有可以完美对接的本地大模型框架。

Codex v0.94 是最后一个支持 Completion API 的版本,在config.toml中配置成这个成熟的接口可以很方便地与本地大模型对接了。

2. 本地大模型的选择与对接

虽然 Unsloth 推荐使用 GLM-4.7-Flash 模型来搭配 Codex,但经过测试,Qwen 3.5 35B A3B 依然表现得比 GLM-4.7-Flash 更好(而且跑得更快),因此更适合在芯片设计内网中使用。

GLM-4.7-Flash 可以直接与 Codex 对接 。但对于 Qwen 3.5 模型,则还需要准备一个 chat 模版,在 llama.cpp 启动时通过--chat-template-file进行指定,才能完成与 Codex 的对接。

量化方案选用的依然是 UD_Q4_K_XL,其 Unsloth Dynamic 量化可以在相近的文件大小上达到比 Q4_K_M 更高的精度。

三、Linux 操作系统的兼容性

芯片设计集群中一般安装的都是 RHEL 操作系统(或对应的 CentOS / Rocky 系统)。经过实测,在 RHEL 6 / 7 / 8 版本上都可以顺利部署 Codex + 本地大模型,对老一些的操作系统只需要作一些兼容性处理即可:

RHEL版本 Codex 兼容性处理
8.x
7.x Node 22 使用对应 glibc 2.17 的预编译版
6.x 在 7.x 的基础上,再加载新版 libc.so.6、libdl.so.2、libm.so.6、libpthread.so.0

四、实测效果

芯片设计内网运行 Codex 效果如下(启用 32 核 CPU):
芯片设计内网运行 Codex
芯片设计内网运行 Codex - 续
芯片设计内网运行 Codex - 续2

五、轻松部署

与 OpenClaw 类似,轻思科技也提供了芯片设计内网专用的 Codex 预编译包,它可以:

  • 同时支持 RHEL6/7/8 / CentOS6/7 / Rocky8 系统,覆盖所有 fabless 集群
  • 解压可用
  • 包含最后一个支持 Completion API 的 Codex v0.94
  • 包含 Qwen 3.5 的 chat 模版
  • 内网运行
  • 纯 CPU 运行

目前可通过🛰️“轻思科技EDA” - 在线支持 - OpenClaw安装包 中的网盘地址下载这个 Codex 内网专用预编译包(约100MB)。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐