CLI Agent:当软件长出两副面孔,AI时代的“黑框框”文艺复兴
昨天在朋友圈看到一张截图,有点被击中了。
左边是我们熟得不能再熟的流程。公司来了个新人,HR打开钉钉,把人拉进大群,再建个小群,配个师傅,然后一条一条交代入职任务。
右边一下子变了味道。几行代码,直接把刚才那一整套流程直接写出来了。创建群、拉人、发消息,全变成一段可以执行的脚本。
可能有程序员会觉得,脚本这事有什么稀奇的?搞运维的人天天写脚本。但真正的问题是,钉钉作为一个GUI软件,拉群发消息之类的能力,之前只能在GUI上干。
现在,钉钉把这些全部CLI化了。所有之前可以在GUI上实现的操作,都可以通过CLI搞定。
这肯定会是一个重要的分水岭。因为接下来,CLI会变成越来越关键的一层。
从钉钉这次的动作能看出来,大公司已经开始意识到,一个产品不能只有给人点的界面,还得有给AI调用的接口。
01 为什么CLI又重要了?
CLI是Command Line Interface,命令行界面。最早DOS时代,人类和计算机的交互就是用CLI——得在黑底白字的屏幕上敲命令,电脑才知道我们想干什么。后来有了GUI,图形界面,用鼠标点点就行,不用记命令了。GUI这些年发展得越来越成熟,网站页面越来越漂亮,App交互越来越顺滑。
但现在,AI这个重要变量来了。
对于AI来说,GUI有个根本问题:它是为人类操作设计的。命令行对人类来说门槛太高,所以诞生了各种各样的菜单、表单和排版样式。
可是,AI不需要这些。AI不需要漂亮的按钮,不需要流畅的动画。
大家想想,GUI这套东西,本质上是在翻译。
人不会直接理解系统能力。所以我们需要按钮、菜单、页面结构,把底层能力翻译成人能看懂、能点的东西。
拿发邮件举例。
对人来说,发邮件是这样的:打开邮箱,点写邮件,填收件人,写内容,点发送。五个步骤,每一步都有对应的界面。
但对产品的后端接口来说,发邮件其实就是一件事:send_email(to, content)。一行搞定。
中间那五个步骤是什么?是给人准备的翻译层。
AI不需要这层翻译。它本来就是理解指令、调用能力、返回结果。让它走GUI,相当于明明能直接说一句话,非要让它看图猜意思。
CLI本质上就是把那层翻译剥掉,直接暴露底层能力。AI不是像人那样操作软件,它是在调用能力。这两件事完全不是一回事。
可以100%确定,CLI就是AI和软件之间最自然的语言。
Andrej Karpathy最近在X上评论说,CLI是AI Agent的“强大桥梁”,因为它们稳定、可脚本化,并且可以通过终端工具链原生访问。他甚至演示了Claude在几分钟内安装并使用Polymarket CLI来生成自定义仪表盘——这种效率,GUI模式下根本无法想象。
02 “黑框框”里住进的灵魂
如果说GUI是人类友好型交互方式,那么CLI才是Agent友好型的交互方式-1。
一个有趣的现象是,2026年初,以OpenClaw为代表的AI智能体爆火,证明了AI可以自主操控设备、执行真实任务,让“一人团队”成为可能。但OpenClaw有个致命问题:它缺乏企业级权限管控,操作不可审计,数据安全无保障。钉钉CEO陈航在发布会上披露了一个触目惊心的数据:经扫描18000个暴露的OpenClaw实例发现,其15%的社区技能包含恶意指令,可实现窃取密钥或部署木马。超过39万的Claw站点资产处于“裸奔”状态。
这就是AI圈当下的真实写照:满大街的“龙虾”横行,能力是有了,但谁也不敢把它真正放进公司的血管里。
“悟空”的解决方案,是彻底重构底层。钉钉完成了成立11年来最大规模的底层代码重写,将文档、表格、IM、审批、日程、会议、听记等上千项核心能力全部CLI化,改写为AI可直接读懂、原生调用的标准化指令。
CLI化带来的优势是根本性的:
第一,确定性。 CLI的结构化输出、确定性执行结果,天然适配大语言模型的处理逻辑。报错信息可被模型直接解析并自动重试,无需人工干预。
第二,效率。 CLI调用相比模拟GUI操作,可以省5-10倍的Token。这对企业级规模化部署至关重要。
第三,可组合性。 CLI的管道化特性,让多个命令可以串联成复杂的工作流,就像搭积木一样构建自动化流程。
03 技术解剖:CLI Agent的三要素
如果你对技术感兴趣,可以看看CLI Agent到底是怎么工作的。一个极度简化的实现,像nanocode这样两百来行的Python程序,主要做了三件事:
-
连模型:接入LLM API
-
提供工具集合:bash指令调用、本地文件读写
-
实现Agent Loop:一个用于接收用户输入的交互循环,另一个用于tool use及tool result的处理循环
这个“Agent Loop”是核心。OpenAI最近首次公开了Codex的Agent Loop架构,把它拆解为五个步骤:
第一步:构建Prompt——给模型发一份详细的“工作邮件”,包含身份定位、可用工具、环境上下文和用户指令。
第二步:模型推理——模型思考用户意图,决定下一步行动。
第三步:工具调用——模型请求执行具体工具,Codex在本地执行命令。
第四步:结果反馈——命令输出追加到Prompt,再发给模型。
第五步:循环——模型看到结果后继续推理,直到任务完成。
这绝不是简单的“多调几次API”。传统的LLM应用是“一问一答”式:你问,它答,完事儿。但Agent Loop让AI变成了一个能独立干活的员工——它会自己规划路径(Chain of Thought)、自己检查错误(Self-Correction)、自己验证结果(Feedback Loop)。
04 安全,是CLI Agent的命门
但CLI一旦放开,本质上就是AI拿到了操作系统级别的能力。所以安全问题至关重要。
特别是钉钉这样的产品,它本身就是企业级的。如果数据权限没控好,AI一个误操作,可能整个公司的信息都泄露了。
悟空的安全设计体现出三层滤网机制:
第一层:CLI模式下的“意图锁”。AI的操作权限永远不会超过使用者本人,从根源杜绝越权操作。
第二层:钉钉原生的“审批流”熔断机制。引入置信度阈值,一旦Agent对某一步操作置信度低于设定值,或其他风险情况,立即暂停执行。
第三层:检索增强生成的精准化。对企业知识库进行预清洗与向量化,确保AI调用的是准确信息。
这种安全思路与ProClaw的“SteelClaw 8-Layer Stack”异曲同工——从模型隔离、安全运行时、零信任策略到DLP引擎和审计账本,层层递进,形成fail-closed的防御体系。当AI能力越来越强时,约束它的框架必须同步进化。
05 RealDoc:为AI设计的文件系统
悟空还配套做了一个叫RealDoc的真经系统,专门为AI设计的文件系统。
传统文件系统同样是为人类操作设计的,比较注重前端的UI交互。但对于AI来说,UI不重要——它可能觉得版本管理更重要,以及原子化的操作更重要。
比如AI要改一个表格,传统方式是把整个文件读进来,改完再整个存回去。但RealDoc支持更细粒度的原子操作,AI可以按行号定位、按关键词锚点,只改动需要修改的部分,不用动整个文件。这样也更省Token。
更重要的是过程记录。AI读了什么文档、做了什么判断、执行了什么命令、中间改了几版,RealDoc都会保存快照。每一步操作自动保存快照,可随时回退到任意历史版本。有点像飞机的黑匣子,出了问题可以回溯,看看AI到底是哪一步想歪了。
这一点对于企业级应用尤为关键——AI的执行过程必须是可审计、可追溯的,而不是一个无法解释的黑盒。
06 竞争格局:三大生态的对垒
这场B端AI混战,不是一场“悟空收虾兵”的单方面屠杀,而是三大生态的全面对垒。
字节的打法:一个字——深。 飞书将AI直接接入企业的文档、表格、聊天记录,让AI能“住进数据里”。你问AI“上个月的销售复盘”,它调用的不是通用知识库,而是你公司自己沉淀的业务数据。
腾讯的底牌:与微信互通。 企业最宝贵的客户资源、社群关系、私域流量,全在这条链路里。你说“给这批客户发个新品通知”,AI自动筛选标签、匹配话术、分发给对应员工执行。
阿里的路径:强管控、强安全。 钉钉服务的是大量中小企业,这些企业最怕内部管理混乱,所以AI先学权限和流程,先守好规则。悟空天然长在企业组织里,继承了钉钉的企业账号体系、权限管理和审计能力。
三条路径,没有谁比谁更高明,只是各自所在的领域和沉淀不同。但有一点可以确定:这场竞争,早就不只是产品功能的比拼,而是谁能把AI真正变成企业可落地、可量化效率提升的刚需工具。
07 未来已来:软件正在长出两副面孔
无招在发布会上说了一句话:未来时代,每一个岗位知识与经验的执行,都会从“由人执行”,逐步变成“由模型Token执行”。
这句话再往前推一步:软件正在出现两套界面。一套是给人看的GUI,一套是给AI用的CLI。
而且这两套界面的重要性,未来可能会倒过来。
黄仁勋在GTC 2026上抛出了一个让资本市场血脉贲张的判断:AI产业正从“训练”转向“推理”,未来的数据中心是“生产Token的工厂”。每一家SaaS公司,都将变成一家GaaS(GPU-as-a-Service)公司,从卖工具变成租赁智能体。
翻译一下:企业软件的未来,不是卖一套系统让你自己操作,而是直接卖给你一批AI数字员工,让它们替你干活。
08 写在最后:你的产品,准备好给AI用了吗?
如果你在做SaaS、专业服务,或者任何不是纯内容消费型的产品,有一件事要开始认真想了:你的产品,接下来到底要不要给AI用?
以前这个问题根本不存在。用户就是人类。人类需要的是简单、审美在线的GUI。
但现在,用户结构在变。
未来越来越多的场景会变成这样:人只给一个目标,真正去用你产品的,是一个Agent。
如果你的产品只有GUI,AI想用你的服务,就只能假装成一个人。截图页面,识别按钮,模拟点击,一步一步往下走。每一步都在绕远路,成本高,还不稳定。
但如果你提供了CLI和API,AI可以直接调用能力,不用绕过界面。这两种方式的效率差距,是数量级的。
更关键的变化是,竞争逻辑会变。
过去我们做产品,竞争的是用户体验。谁界面更好看,谁交互更顺滑。
但在Agent时代,会多出一层竞争:谁更容易被调用。
同样一个服务,一个只能点点点,另一个可以一行命令搞定,AI会优先选谁,没有悬念。
慢慢地,很多调用会在后台完成,人甚至不知道自己在用哪个产品。
所以提供CLI和API,不只是为了方便开发者,也不只是为了做生态。它本质上是在决定一件事:
当世界的操作主体从人变成AI的时候,你的产品还能不能被用上。
最后,用一句金句来收尾,我觉得它精准地概括了CLI Agent的进化本质:
“黑框框没变,但里面住进来一个会思考的灵魂——你敲的是键盘,它跑的是脑子。”
文本接口的古老设计,反而成了AI时代的最佳握手协议:没有中间商(GUI)赚效率差价。从“人机接力”到“人机嵌合”,本质是让AI从“顾问”变成“执行者”,人类从“操作员”变成“指挥官”。
这场文艺复兴,才刚刚开始。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐
所有评论(0)