昨天 Codex 又更新了一个很容易出圈的能力:接入 ChatGPT 手机 App。

重点不是“手机上也能聊天”,而是手机变成了 Codex 的控制面板。

这次不是那种「模型参数又变强了」的更新。

它更像是把一个原本只能坐在电脑前盯着的 Agent,塞进了你的手机里。

你在等咖啡、坐地铁、排队取餐的时候,也能打开 ChatGPT,看 Codex 在电脑上跑到哪一步了。

它要执行命令,你可以在手机上批。

它卡住了,你可以补一句说明。

它生成了文件、截图、代码、封面图,你可以先看一眼,不满意就让它继续改。

这件事看起来只是「多了一个手机入口」,但用过 Agent 的人会知道,它解决的是一个很真实的问题:

以前 Codex 能跑长任务,但人最好别离电脑太远。

因为它可能跑到一半问你一句:这个命令能不能执行?

你不点,它就停着。

现在手机变成了控制面板。

电脑继续干活,人可以走开。


这也是为什么我觉得,最近再看 Codex,不能只把它当成一个写代码工具了。

名字听起来像是给程序员准备的,打开介绍页也确实一堆 GitHub、CLI、IDE、终端之类的词。第一次看到,很容易以为它只是另一个开发者工具。

但如果你真正用一段时间,会发现它已经不是过去那种「你问一句,它回一句」的 AI。

它更像一个可以放在电脑里的执行型助手。

你给它一个目标,它自己拆步骤、查文件、跑命令、改东西、生成结果。需要你确认的时候,它停下来问你;不需要你盯着的时候,它就在后台继续跑。

ChatGPT 更像一个随叫随到的顾问,你问它问题,它给你答案。

Codex 更像一个可以分配任务的人。你说「帮我把这个文件夹里的图片整理一下」「帮我做一张公众号封面」「帮我把这份英文材料翻成双语稿」,它会真的去动电脑里的文件。


01|它不是只能写代码

很多人对 Codex 的第一个误解,是觉得它等于 Copilot。

不是。

Copilot 是你写代码时给你补一句、补一段。你仍然是那个一直坐在电脑前的人。

Codex 的逻辑不一样。你可以把一个完整任务交给它,它自己去执行。你要做的不是一行行告诉它怎么写,而是告诉它你要什么结果。

比如你可以这样说:

「帮我把这个文件夹里的截图按日期重命名,重复的放到一个单独文件夹。」

「帮我把这段播客转成中英双语稿,再整理出 5 个适合发朋友圈的金句。」

「帮我生成一张 3:4 的公众号封面,主题是 AI 工具配置,风格干净一点,不要太像广告。」

这类任务放在以前,可能你会先让 ChatGPT 给你步骤,再自己打开 Finder、浏览器、终端、剪贴板,一步步做。

现在 Codex 可以直接接走中间那一大段执行过程。

它能读本地文件,能跑命令,能调用图像模型,能处理文档,也能用 Computer Use 去看屏幕、点按钮、复制粘贴。不是每件事都完美,但方向已经很清楚了:AI 不再只是回答你,它开始替你动手。


02|四个入口,按你的工作习惯选

Codex 现在常见有几个入口。

如果你只是想试试,桌面 App 最简单。下载安装,登录 ChatGPT 账号,界面基本就是一个任务中心。左边是项目和对话,右边输入你想做什么。

如果你本来就在写代码,VS Code 插件会更顺手。它就在编辑器旁边,能直接看到项目文件,不用来回切窗口。

如果你习惯终端,CLI 也能用。很多开发者会把它接进自己的脚本、CI、发布流程里,让它自动跑测试、看日志、生成报告。

如果你只是想快速试一个代码想法,网页版也够用。尤其是和 GitHub 结合时,做代码审查、分析仓库、跑后台任务都比较方便。

所以它不是只有一种用法。你在哪工作,就把它放在哪。

这也是 Codex 最近变得有意思的地方。它不再只是在某个网页里等你发消息,而是开始贴近你的真实工作流。


03|手机入口,才是这次最值得看的

这次接入 ChatGPT 手机 App,很多人第一反应可能是:这不就是手机上多了一个入口吗?

但这个入口和普通聊天入口不一样。

它不是让手机去跑那些复杂任务。真正跑任务的,仍然是你的电脑或者远程环境。

手机只是控制面板。

你在外面等咖啡、坐车、排队的时候,可以打开 ChatGPT,看桌面 Codex 正在做什么。

任务跑到一半,需要你批准命令,你可以在手机上点。

它卡住了,需要你补一句说明,你可以在手机上回。

它生成了结果,你可以先看一眼,不满意就让它继续改。

这件事的意义是,以前 Agent 最大的问题是「它能跑长任务,但你人最好在电脑前」。

过一会儿它弹一个确认,过一会儿它又问你要不要继续。

现在至少这件事没那么烦了。

电脑在家里跑,手机在手里看。你不需要一直坐在屏幕前等它。

我觉得这个形态比接入微信、飞书机器人更自然一点。

微信和飞书当然也能远程发指令,但它们更像一个聊天窗口。你很难同时管理多个任务,也很难看到完整的执行过程。

Codex 手机端能看到项目、线程、运行状态、输出结果。

它不是单纯让你发一句「继续」,而是把桌面端那套任务管理搬到了手机上。

这就有点像从「远程发消息给机器人」变成了「随身带着一个任务后台」。

比如你早上出门前让 Codex 去处理一批文件,路上它跑到一半需要你确认命令,你在手机上点一下。

中午它生成了一个初版页面,你看一眼觉得按钮太挤,直接回一句「整体留白再放大一点」。

晚上回到电脑前,文件已经在那里。

这不是未来感很强的演示视频,而是这次更新之后大家可以开始试的东西。

一句话概括:Codex 原来是在电脑里跑,现在你可以在手机上盯它、催它、批准它。


04|Chrome 插件让它更像一个真正的助理

还有一个更新也很关键:Chrome 扩展。

以前 AI 想帮你处理网页,大多停留在「你把网页内容复制给它」。

现在 Codex 可以直接进浏览器工作。

你让它整理一个网页里的表格,它可以自己打开页面、提取数据、导出 CSV。

你让它检查后台数据,它可以打开仪表盘、看指标、判断有没有异常。

你让它批量录入内容,它可以进系统填表。

这些事情听起来都不难,但真正做起来很烦。因为它们不是高难度工作,而是很多机械步骤堆在一起。

点页面,复制,粘贴,改格式,保存,再检查一遍。

人做这种事很浪费,AI 做反而合适。

当然,这里也要稍微谨慎一点。

涉及账号、支付、客户数据、后台权限的页面,不要一上来就全放开。最好先给它一个很小的权限范围,先看它怎么执行,再逐步扩大。

Agent 能操作浏览器之后,能力是变强了,风险也会一起变大。

我现在自己的习惯是:能让它读的就让它读,能让它生成草稿的就让它生成草稿,但真正提交、发布、付款、删除之前,一定自己看一眼。

把它当员工,不要当老板。


05|新手第一次用,别问问题,要派任务

很多人第一次打开 Codex,会卡在输入框前。

不知道该说什么。

最常见的错误,是把它当搜索引擎用:

「Python 怎么实现多线程?」

「React 组件怎么传 props?」

「这个报错是什么意思?」

这些问题当然也能问,但这不是 Codex 最值得用的方式。

Codex 适合的是结果型任务。

不要问「怎么做」,直接说「帮我做」。

比如:

「把这个 Python 脚本改成支持多线程,并保留原来的命令行参数。」

「帮我做一个用户注册页面,要有邮箱、手机号、第三方微信登录,样式跟现有项目保持一致。」

「帮我把下载文件夹里的视频压缩成 30 秒版本,输出到一个新文件夹。」

这才是它的强项。

你不用知道每一步怎么操作,你只要说清楚结果是什么。

如果任务比较大,就让它先写计划。

比如不要直接说「帮我做一个完整的网站」,而是说:

「先告诉我这个网站应该分成哪几个模块,每个模块的实现顺序是什么,我确认之后你再开始做。」

这句话很重要。

因为 Agent 最大的问题不是不会做,而是有时候太会自己发挥。它一发挥,你可能半小时后才发现方向不对。

先让它列计划,你就能在开工前把方向掰回来。


06|真正有价值的是长任务

如果只是问一句答一句,ChatGPT 已经很好用了。

Codex 更适合那些需要跑一段时间的任务。

比如整理一个文件夹。

比如批量处理图片。

比如把一个旧项目改成新的结构。

比如检查一批页面有没有错别字、死链、样式问题。

比如让它每天早上看一次 CI 结果,失败了就整理原因。

这些事情的共同点是:人做很碎,AI 做不一定快到离谱,但它可以一直做。

你把任务放进去,然后去干别的。等它跑完,你回来检查。

以前你花时间执行,现在你花时间判断。

这个变化其实比「模型又聪明了多少」更重要。

聪明当然重要,但能不能把执行链条接住,决定了它能不能进入真实工作。


07|多 Agent 并行,才是提效的关键

Codex 还有一个容易被忽略的能力:多 Agent 并行。

你可以让几个任务同时跑。

一个 Agent 去整理文档,一个 Agent 去生成封面图,一个 Agent 去检查网页,一个 Agent 去改代码。

如果是开发场景,它还可以配合 Git worktree,把不同任务隔离在不同分支里,互相不影响。

这件事的价值不是「AI 比你快」,而是「你不用按顺序等」。

以前你要先做 A,再做 B,再做 C。

现在你可以把 A、B、C 同时丢出去。等它们都跑完,你来做最后判断。

人的注意力最贵,不应该一直耗在执行细节里。


08|Skills 和 Automations,适合重度用户

如果你只是偶尔用一下 Codex,前面的能力就够了。

但如果你每天都用,就会开始关心另外两件事:Skills 和 Automations。

Skills 可以理解成你给 Codex 写的工作规范。

比如你的团队有固定的 React 目录结构,固定的 CSS Modules 写法,固定的测试文件命名,固定的 API 请求封装。

你不想每次都提醒它,就可以把这些规则写进 Skill。

以后它每次做同类任务,都会按你的规矩来。

Automations 更像定时任务。

你可以让它每天早上检查一次项目状态,每周生成一次运营数据摘要,或者每晚空闲时帮你扫描代码库里可以优化的地方。

这类功能短期看不明显,长期会越来越有用。

因为它不是解决某一个问题,而是在帮你把重复流程固定下来。


09|但问题也来了:好用是真的,贵也是真的

说到这里,Codex 的问题也很明显。

它好用,但不便宜。

尤其是你真的把它当 Agent 用之后,消耗会比普通聊天大很多。

普通聊天可能就是一问一答,几千 token 结束。

Agent 不是。

它要读项目文件,要看上下文,要跑命令,要把输出继续喂回模型,要生成计划,要做总结,还可能反复修改。

一个看起来很简单的任务,背后可能是几十轮模型调用。

如果你一直默认用最贵的模型,成本很快就上去了。

更麻烦的是,很多人并不知道钱花在哪里。

到底是输入太长?

是输出太多?

是缓存没命中?

是图片生成太贵?

还是某个任务失败重试了好几次?

如果日志不透明,你只能看到账单变高,却不知道怎么优化。

所以我现在更建议按任务分层用模型。

日常总结、改写、标题、简单问答,不要一上来就用最贵的。

中等复杂度的任务,用稳定、便宜、速度快的模型先跑。

真正复杂的工程、多文件修改、长上下文 Agent 任务,再切到更强的模型。

不是所有任务都需要开最高档。

AI 工具长期用,省钱不是靠少用,而是靠别把高价模型浪费在轻任务上。


10|第三方 API 配置,重点看 GPT 5.5、5.4、5.4 mini

如果你想在 Codex、Claude Code、OpenClaw 或其他本地 Agent 工具里接第三方 API,最容易卡住的地方其实不多。

第一,Base URL 要填对。

很多平台会同时支持 OpenAI Compatible 和 Anthropic Compatible,两套路由不一样。OpenAI 兼容一般是 /v1/chat/completions,Anthropic 兼容一般是 /v1/messages。

不要看别人教程里多一个路径就直接照抄。不同平台的 Base URL 规则可能不一样。

第二,模型 ID 要填原始名称。

不要自己加后缀,不要加中文备注,不要把展示名当模型名。

模型名就是平台给你的那个 ID。

如果你主要想用 GPT 系列,我现在更建议先从这几个开始:

gpt-5.5

gpt-5.4

gpt-5.4-mini

它们的分工其实很清楚。

gpt-5.5 适合放在最重的任务上。比如复杂代码、长文档、多文件工程、需要多轮判断的 Agent 任务。它贵一点,但关键任务上更稳。

gpt-5.4 更像日常主力。写文章、改稿、分析材料、做方案、跑中等复杂度的代码任务,都可以先用它。不是每次都需要上 5.5。

gpt-5.4-mini 适合轻任务。标题、摘要、短改写、分类、简单问答、批量格式化,这类任务用 mini 就很划算。

这个分层很重要。

很多人成本高,不是因为 AI 太贵,而是因为所有任务都默认用最贵模型。

就像你不会开跑车去楼下买水,也没必要用旗舰模型去写一个 80 字标题。

第三,Key 尽量放环境变量里。

不要到处写死在配置文件里,更不要截图发出去。

如果工具支持环境变量,就用 ANTHROPIC_AUTH_TOKEN、OPENAI_API_KEY 这类方式。以后换 Key,也不用到处翻配置。

另外,如果你接的是支持推理内容的模型,还要特别注意 thinking / reasoning 兼容问题。

有些中转站能跑通简单请求,但多轮 Agent 会话会出问题。因为 Agent 会把历史消息、工具调用、推理内容一起带上。接口兼容不完整时,就可能出现看起来很玄学的 400 报错。

这类问题不要先怀疑自己不会用,先看日志。

看请求走的是哪个 endpoint,看模型 ID 对不对,看有没有多余的 thinking beta,看服务端返回的 request id。

越是 Agent 工具,越不能只靠「能不能聊一句」判断接口可用。

能聊一句,不代表能跑长任务。


11|价格优势也要看,不然 Agent 很容易烧钱

如果只是玩一玩,随便找个接口也行。

但如果你真的准备长期用 Codex、Claude Code、OpenClaw 这些工具,我建议至少看三点。

第一,模型要够全。

轻任务有 gpt-5.4-mini,日常任务有 gpt-5.4,重任务有 gpt-5.5。不要一个模型打天下。

第二,日志要清楚。

每次调用走了哪个模型、输入多少、输出多少、有没有缓存、扣了多少,最好都能看到。

第三,切换要方便。

今天用 mini 跑批量摘要,明天用 5.4 写长文,后天用 5.5 处理复杂项目,不应该每次都重新折腾一堆配置。

我们做 API Token,就是按这个思路来的。

它不是只给你一个 API Key,而是把模型分组、倍率、调用日志、扣费说明这些长期使用里最容易踩坑的地方,尽量摊开给你看。

轻量任务可以先跑低成本模型。

复杂任务再切到更强的模型。

遇到 Codex、Claude Code、OpenClaw 这类工具,也可以按第三方 API 的方式去接,少走一点配置上的弯路。

价格上也有一点小优势。

你不一定一开始就要大额充值,也不一定一上来就买最贵套餐。

先用活动额度、小额余额,把 gpt-5.4-mini、gpt-5.4、gpt-5.5 都跑一遍。

看一下同一个任务,不同模型效果差多少,扣费差多少。

这个过程其实就是在薅羊毛。

不是为了占一点便宜,而是先用最低成本把自己的配置、模型选择和任务分层跑明白。

等你知道什么任务该用哪个模型,再长期用,账单会舒服很多。

网站在这里:

apitoken.fun(复制到浏览器打开)

如果你已经开始把 Agent 当日常工具用,这件事会越来越重要。

因为真正拉开体验差距的,不只是模型能力。

还有你能不能稳定接入、能不能看懂账单、能不能把合适的模型用在合适的任务上。

Codex 这样的工具会越来越强。

但长期用下去,最终拼的不是谁会喊一句「帮我做」。

而是谁能把工具、模型、成本和工作流都配置好。

AI 不缺新功能。

缺的是一套能让你放心长期用的配置方式。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐