CLI Agent：当软件长出两副面孔，AI时代的“黑框框”文艺复兴

fuquxiaoguang

318人浏览 · 2026-03-24 14:08:56

fuquxiaoguang · 2026-03-24 14:08:56 发布

昨天在朋友圈看到一张截图，有点被击中了。

左边是我们熟得不能再熟的流程。公司来了个新人，HR打开钉钉，把人拉进大群，再建个小群，配个师傅，然后一条一条交代入职任务。

右边一下子变了味道。几行代码，直接把刚才那一整套流程直接写出来了。创建群、拉人、发消息，全变成一段可以执行的脚本。

可能有程序员会觉得，脚本这事有什么稀奇的？搞运维的人天天写脚本。但真正的问题是，钉钉作为一个GUI软件，拉群发消息之类的能力，之前只能在GUI上干。

现在，钉钉把这些全部CLI化了。所有之前可以在GUI上实现的操作，都可以通过CLI搞定。

这肯定会是一个重要的分水岭。因为接下来，CLI会变成越来越关键的一层。

从钉钉这次的动作能看出来，大公司已经开始意识到，一个产品不能只有给人点的界面，还得有给AI调用的接口。

01 为什么CLI又重要了？

CLI是Command Line Interface，命令行界面。最早DOS时代，人类和计算机的交互就是用CLI——得在黑底白字的屏幕上敲命令，电脑才知道我们想干什么。后来有了GUI，图形界面，用鼠标点点就行，不用记命令了。GUI这些年发展得越来越成熟，网站页面越来越漂亮，App交互越来越顺滑。

但现在，AI这个重要变量来了。

对于AI来说，GUI有个根本问题：它是为人类操作设计的。命令行对人类来说门槛太高，所以诞生了各种各样的菜单、表单和排版样式。

可是，AI不需要这些。AI不需要漂亮的按钮，不需要流畅的动画。

大家想想，GUI这套东西，本质上是在翻译。

人不会直接理解系统能力。所以我们需要按钮、菜单、页面结构，把底层能力翻译成人能看懂、能点的东西。

拿发邮件举例。

对人来说，发邮件是这样的：打开邮箱，点写邮件，填收件人，写内容，点发送。五个步骤，每一步都有对应的界面。

但对产品的后端接口来说，发邮件其实就是一件事：send_email(to, content)。一行搞定。

中间那五个步骤是什么？是给人准备的翻译层。

AI不需要这层翻译。它本来就是理解指令、调用能力、返回结果。让它走GUI，相当于明明能直接说一句话，非要让它看图猜意思。

CLI本质上就是把那层翻译剥掉，直接暴露底层能力。AI不是像人那样操作软件，它是在调用能力。这两件事完全不是一回事。

可以100%确定，CLI就是AI和软件之间最自然的语言。

Andrej Karpathy最近在X上评论说，CLI是AI Agent的“强大桥梁”，因为它们稳定、可脚本化，并且可以通过终端工具链原生访问。他甚至演示了Claude在几分钟内安装并使用Polymarket CLI来生成自定义仪表盘——这种效率，GUI模式下根本无法想象。

02 “黑框框”里住进的灵魂

如果说GUI是人类友好型交互方式，那么CLI才是Agent友好型的交互方式-1。

一个有趣的现象是，2026年初，以OpenClaw为代表的AI智能体爆火，证明了AI可以自主操控设备、执行真实任务，让“一人团队”成为可能。但OpenClaw有个致命问题：它缺乏企业级权限管控，操作不可审计，数据安全无保障。钉钉CEO陈航在发布会上披露了一个触目惊心的数据：经扫描18000个暴露的OpenClaw实例发现，其15%的社区技能包含恶意指令，可实现窃取密钥或部署木马。超过39万的Claw站点资产处于“裸奔”状态。

这就是AI圈当下的真实写照：满大街的“龙虾”横行，能力是有了，但谁也不敢把它真正放进公司的血管里。

“悟空”的解决方案，是彻底重构底层。钉钉完成了成立11年来最大规模的底层代码重写，将文档、表格、IM、审批、日程、会议、听记等上千项核心能力全部CLI化，改写为AI可直接读懂、原生调用的标准化指令。

CLI化带来的优势是根本性的：

第一，确定性。 CLI的结构化输出、确定性执行结果，天然适配大语言模型的处理逻辑。报错信息可被模型直接解析并自动重试，无需人工干预。

第二，效率。 CLI调用相比模拟GUI操作，可以省5-10倍的Token。这对企业级规模化部署至关重要。

第三，可组合性。 CLI的管道化特性，让多个命令可以串联成复杂的工作流，就像搭积木一样构建自动化流程。

03 技术解剖：CLI Agent的三要素

如果你对技术感兴趣，可以看看CLI Agent到底是怎么工作的。一个极度简化的实现，像nanocode这样两百来行的Python程序，主要做了三件事：

连模型：接入LLM API
提供工具集合：bash指令调用、本地文件读写
实现Agent Loop：一个用于接收用户输入的交互循环，另一个用于tool use及tool result的处理循环

这个“Agent Loop”是核心。OpenAI最近首次公开了Codex的Agent Loop架构，把它拆解为五个步骤：

第一步：构建Prompt——给模型发一份详细的“工作邮件”，包含身份定位、可用工具、环境上下文和用户指令。

第二步：模型推理——模型思考用户意图，决定下一步行动。

第三步：工具调用——模型请求执行具体工具，Codex在本地执行命令。

第四步：结果反馈——命令输出追加到Prompt，再发给模型。

第五步：循环——模型看到结果后继续推理，直到任务完成。

这绝不是简单的“多调几次API”。传统的LLM应用是“一问一答”式：你问，它答，完事儿。但Agent Loop让AI变成了一个能独立干活的员工——它会自己规划路径（Chain of Thought）、自己检查错误（Self-Correction）、自己验证结果（Feedback Loop）。

04 安全，是CLI Agent的命门

但CLI一旦放开，本质上就是AI拿到了操作系统级别的能力。所以安全问题至关重要。

特别是钉钉这样的产品，它本身就是企业级的。如果数据权限没控好，AI一个误操作，可能整个公司的信息都泄露了。

悟空的安全设计体现出三层滤网机制：

第一层：CLI模式下的“意图锁”。AI的操作权限永远不会超过使用者本人，从根源杜绝越权操作。

第二层：钉钉原生的“审批流”熔断机制。引入置信度阈值，一旦Agent对某一步操作置信度低于设定值，或其他风险情况，立即暂停执行。

第三层：检索增强生成的精准化。对企业知识库进行预清洗与向量化，确保AI调用的是准确信息。

这种安全思路与ProClaw的“SteelClaw 8-Layer Stack”异曲同工——从模型隔离、安全运行时、零信任策略到DLP引擎和审计账本，层层递进，形成fail-closed的防御体系。当AI能力越来越强时，约束它的框架必须同步进化。

05 RealDoc：为AI设计的文件系统

悟空还配套做了一个叫RealDoc的真经系统，专门为AI设计的文件系统。

传统文件系统同样是为人类操作设计的，比较注重前端的UI交互。但对于AI来说，UI不重要——它可能觉得版本管理更重要，以及原子化的操作更重要。

比如AI要改一个表格，传统方式是把整个文件读进来，改完再整个存回去。但RealDoc支持更细粒度的原子操作，AI可以按行号定位、按关键词锚点，只改动需要修改的部分，不用动整个文件。这样也更省Token。

更重要的是过程记录。AI读了什么文档、做了什么判断、执行了什么命令、中间改了几版，RealDoc都会保存快照。每一步操作自动保存快照，可随时回退到任意历史版本。有点像飞机的黑匣子，出了问题可以回溯，看看AI到底是哪一步想歪了。

这一点对于企业级应用尤为关键——AI的执行过程必须是可审计、可追溯的，而不是一个无法解释的黑盒。

06 竞争格局：三大生态的对垒

这场B端AI混战，不是一场“悟空收虾兵”的单方面屠杀，而是三大生态的全面对垒。

字节的打法：一个字——深。 飞书将AI直接接入企业的文档、表格、聊天记录，让AI能“住进数据里”。你问AI“上个月的销售复盘”，它调用的不是通用知识库，而是你公司自己沉淀的业务数据。

腾讯的底牌：与微信互通。 企业最宝贵的客户资源、社群关系、私域流量，全在这条链路里。你说“给这批客户发个新品通知”，AI自动筛选标签、匹配话术、分发给对应员工执行。

阿里的路径：强管控、强安全。 钉钉服务的是大量中小企业，这些企业最怕内部管理混乱，所以AI先学权限和流程，先守好规则。悟空天然长在企业组织里，继承了钉钉的企业账号体系、权限管理和审计能力。

三条路径，没有谁比谁更高明，只是各自所在的领域和沉淀不同。但有一点可以确定：这场竞争，早就不只是产品功能的比拼，而是谁能把AI真正变成企业可落地、可量化效率提升的刚需工具。

07 未来已来：软件正在长出两副面孔

无招在发布会上说了一句话：未来时代，每一个岗位知识与经验的执行，都会从“由人执行”，逐步变成“由模型Token执行”。

这句话再往前推一步：软件正在出现两套界面。一套是给人看的GUI，一套是给AI用的CLI。

而且这两套界面的重要性，未来可能会倒过来。

黄仁勋在GTC 2026上抛出了一个让资本市场血脉贲张的判断：AI产业正从“训练”转向“推理”，未来的数据中心是“生产Token的工厂”。每一家SaaS公司，都将变成一家GaaS（GPU-as-a-Service）公司，从卖工具变成租赁智能体。

翻译一下：企业软件的未来，不是卖一套系统让你自己操作，而是直接卖给你一批AI数字员工，让它们替你干活。

08 写在最后：你的产品，准备好给AI用了吗？

如果你在做SaaS、专业服务，或者任何不是纯内容消费型的产品，有一件事要开始认真想了：你的产品，接下来到底要不要给AI用？

以前这个问题根本不存在。用户就是人类。人类需要的是简单、审美在线的GUI。

但现在，用户结构在变。

未来越来越多的场景会变成这样：人只给一个目标，真正去用你产品的，是一个Agent。

如果你的产品只有GUI，AI想用你的服务，就只能假装成一个人。截图页面，识别按钮，模拟点击，一步一步往下走。每一步都在绕远路，成本高，还不稳定。

但如果你提供了CLI和API，AI可以直接调用能力，不用绕过界面。这两种方式的效率差距，是数量级的。

更关键的变化是，竞争逻辑会变。

过去我们做产品，竞争的是用户体验。谁界面更好看，谁交互更顺滑。

但在Agent时代，会多出一层竞争：谁更容易被调用。

同样一个服务，一个只能点点点，另一个可以一行命令搞定，AI会优先选谁，没有悬念。

慢慢地，很多调用会在后台完成，人甚至不知道自己在用哪个产品。

所以提供CLI和API，不只是为了方便开发者，也不只是为了做生态。它本质上是在决定一件事：

当世界的操作主体从人变成AI的时候，你的产品还能不能被用上。

最后，用一句金句来收尾，我觉得它精准地概括了CLI Agent的进化本质：

“黑框框没变，但里面住进来一个会思考的灵魂——你敲的是键盘，它跑的是脑子。”

文本接口的古老设计，反而成了AI时代的最佳握手协议：没有中间商（GUI）赚效率差价。从“人机接力”到“人机嵌合”，本质是让AI从“顾问”变成“执行者”，人类从“操作员”变成“指挥官”。

这场文艺复兴，才刚刚开始。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

2026论文写作工具红黑榜：AI论文平台怎么选？一篇讲透：

2026年论文写作工具竞争白热化，红榜首选千笔AI、ThouPen、豆包，全面适配国内学术规范与格式要求；黑榜需警惕低质免费工具、无真实引用来源平台及过度依赖全文生成的工具。选择时

AtomGit开源社区

RabbitMQ在大数据领域的集群搭建指南

在大数据处理场景中，消息队列作为分布式系统的核心组件，需要支撑每秒数万级的消息吞吐量、毫秒级的延迟要求以及99.99%的可用性。RabbitMQ作为实现AMQP协议的开源消息中间件，其集群架构能有效解决单点故障、性能瓶颈等问题。本文聚焦RabbitMQ 3.10+版本，覆盖从基础概念到生产级集群部署的完整技术栈，包含架构设计、节点配置、数据同步、负载均衡、监控告警等核心内容。核心概念：解析Rabb

AtomGit开源社区

godot2D游戏教程系列二（22）

我是根据b站上的视频进行学习，并且总结写下笔记，然后做此分享。笔记非常详细以至于你可以通过查看文章进行快速学习并且制作出游戏出来。当然视频学习的链接我也放在下面了：视频学习：https://www.bilibili.com/video/BV1Nd25BNEA6?音频/美术资源包下载： https://pan.baidu.com/s/1mY05SbG3XFUpn-qiKxDRhw?pwd=b6bg。