Agent 时代，为什么 CLI 反而更加流行？

bytesort

579人浏览 · 2026-04-25 18:19:46

bytesort · 2026-04-25 18:19:46 发布

摘要：从 Claude Code 到钉钉 CLI，AI Agent 正在把命令行从编码工具变成通用基础设施。当用户从人变成 Agent，交互方式、服务对象和竞争维度都发生了根本性转换。

2026 年 3 月底，钉钉和飞书在一周内先后开源自己的 CLI 工具，把消息、日历、审批等企业协作能力打包成命令行接口。几乎同时，网易云音乐也将搜索和推荐封装为 CLI，成为业内首个向 AI Agent 开放核心能力的音乐平台。一个月后，xAI 被曝即将推出 Grok CLI，加入 Anthropic、OpenAI、Google 已经拥挤的终端赛道。

过去 40 年，软件行业一直在努力把普通人从命令行里解救出来；而现在，各领域最头部的产品正在主动把命令行接口重新装回去。这并非复古，而是诞生于上世纪的纯文本接口，终于在 Agent 时代等到了它真正的原生用户。

在这里插入图片描述

从编码工具到企业基础设施

这波浪潮的起点是编码工具。2025 年 2 月，Anthropic 推出 Claude Code，该工具凭借其端到端的自主执行能力迅速在开发者群体中普及。51 天后，OpenAI 发布 Codex CLI，开源首日 GitHub Star 破 5000。6 月，Google 开源 Gemini CLI，首日 Star 冲到 1.5 万，凭借免费的 1M 上下文窗口成为性价比之王。三家最重要的大模型公司，在不到半年里全部押注命令行形态。

到 2026 年，更重要的变化发生了：CLI 从编码赛道外溢，成为跨行业的基础设施。钉钉将 10 项核心企业能力封装为 CLI 并以 Apache-2.0 协议开源，飞书紧随其后开源 lark-cli 覆盖 11 大业务域、200+ 命令，附带 19 个预置 AI Agent Skill。网易云音乐接入 OpenClaw 生态，把搜索和推荐标准化为 CLI 接口。Stripe、Google Workspace、ElevenLabs 也相继把核心能力封装成了 CLI 接口。

这些公司横跨不同的赛道，动作却出奇一致：在既有 API 和 SDK 之外，新增一层面向 Agent 的 CLI 接口，交给 Agent 自行调度。CLI 正在褪去"程序员专属"的标签，转变为整个 AI Agent 生态的基础设施层。

在这里插入图片描述

为什么是 CLI

理解这个趋势的关键前提是——Agent 不需要视觉界面，它需要的是一个输入能被精确理解、输出能被无损解析的交互方式。CLI 恰好是这个需求的最优解。具体来说，CLI 有三个对 Agent 极其友好的结构性特征。

1. 自描述性

设计良好的 CLI 本身就是文档。–help 输出里，命令层级、参数类型、默认值、互斥关系一目了然，Agent 读一遍就能推断出完整的使用契约。相比 GUI 需要视觉模型去"看懂"按钮和菜单，CLI 的自描述性把工具的学习成本压到了最低。

2. 低开销与高可控

相比 GUI 需要渲染大量视觉元素，CLI 的输入输出都是纯文本，同样的操作意图一行命令就能表达。CLI 通过参数和退出码提供明确的契约，Agent 很容易生成和解析。而 GUI 的状态则隐藏在视觉层级里，Agent 很难稳定地"看懂"一个复杂界面当前处于什么状态。

3. 可组合性

Unix 哲学（管道、重定向、文本作为通用接口）让 CLI 可以像乐高一样拼接——Bash 脚本、CI/CD 流水线、命令之间通过管道自由串联，上一条命令的输出，直接成为下一条的输入。这种可组合性让 Agent 可以无缝嵌入任何工具链。

Agent 时代的产品形态

技术层面的适配性解释了 CLI 为什么更加适合 Agent，而从产品视角看，企业选择 CLI 而非其他形态，背后是三种产品设计理念的深层转换。

1. 委托式的交互方式

在 GUI 产品中，用户通过点击、拖拽、填写表单来逐步推进操作，系统实时反馈每一步的结果。这是一种"步步引导"的交互模式。而在 CLI 中，用户一次性下达完整的命令意图，Agent 自行规划执行路径并交付最终结果，用户负责验收。这种委托式交互把人从操作细节中解放出来，专注于意图表达和结果确认。

2. 以 Agent 优先

过去 40 年的产品设计理念是以人为中心——视觉层级、渐进式披露、动画过渡，这些原则全部围绕人类认知特征优化。但在 Agent 时代，界面不再主要服务于人类的感知与操作，而是服务于 Agent 的读取与执行。当一个产品缺少 Agent 可消费的接口层，它的图形界面再精致，在 Agent 生态中也是不可见的。企业把核心能力封装成 CLI，体现的正是这种以 Agent 优先的产品设计理念。

3. 差异化逻辑的迁移

GUI 时代，产品之间的竞争围绕界面展开——视觉层级、交互细节、品牌调性，用户最终记住的是体验。但在 Agent 时代，Agent 不"看"界面，它只消费能力。竞争维度随之迁移：不再是"谁的界面更好用"，而是"谁暴露的能力更密集、生态位更不可替代"。钉钉一口气开放 10 项核心能力，飞书覆盖 11 大业务域，本质上是在这个新维度上抢占身位。

CLI 是银弹吗

技术上的优势和产品层面的验证都指向同一个结论，但 CLI 的适用边界同样明确。尤其在从编码工具走向企业基础设施的过程中，其中的问题也逐渐暴露出来。

1. 可观测性缺失

CLI 的输入输出都是纯文本流，Agent 在终端里执行了什么操作、改了哪些数据、触发了什么副作用，对人类而言几乎是黑箱。在编码场景下，有 Git diff 和测试结果兜底；但在企业管理场景——比如 Agent 通过钉钉 CLI 批量审批、通过飞书 CLI 创建日程，人类很难在不逐条审计的情况下确认操作的正确性。

2. 权限边界难以管控

在开发环境中，开发者尚能界定 Agent 的权限边界——终端本身即以开发者身份运行，权限范围清晰可控。但当 CLI 进入企业场景，Agent 开始操作真实业务数据，问题就变得尖锐了：一个 Agent 通过飞书 CLI 读取了谁的日历？推进了多少金额的审批？调取了哪些用户数据？目前大多数 CLI 缺乏细粒度的权限审计机制。

3. 碎片化的接口规范

CLI 化浪潮来得太快，各家的接口规范尚未收敛——钉钉、飞书、Stripe 等 CLI 的命令结构互不相同。对单个 Agent 来说，每接入一个新产品的 CLI，就要学习一套全新的命令体系、参数格式和输出结构。如果 CLI 不能形成某种程度的规范共识，Agent 的跨平台调度成本将随着产品数量线性增长。

CLI 没有复兴，只是终于被看见

CLI 从未真正退场，Unix 的设计哲学，一直支撑着服务端、运维和整个互联网基础设施。当下真正发生剧变的，是 CLI 在 Agent 时代迎来了价值重估——CLI 的高效与确定性优势一直存在，只是直到 Agent 时代，才等到了天然以纯文本为交互方式的原生用户。

当越来越多的企业都开始把核心能力压缩成 CLI，命令行迅速成为 AI Agent 生态当下最务实的基础设施层。但 CLI 的可观测性、权限管控、接口规范化等关键问题仍待解决。从长远来看，随着模型多模态能力的持续增长，一种融合 CLI 确定性优势与 GUI 可视化能力的"半图形半文本"界面，可能会成为下一阶段的主流。