在构建 AI Agent 团队来驱动 GTM(Go-to-Market)流程时,我一度把全部希望寄托在“技能图谱”上:把每个技能写成 Markdown 文件,像 Obsidian 笔记一样相互链接,Agent 就能像人类一样自由调用,知识 + 流程自然流动起来。结果真实生产环境里,依赖链一旦超过三四层,Agent 就开始出现幻觉、跳过关键步骤,甚至直接忘记上游指令。整个系统从“可重复”变成了“每次都不一样”,人力反而得花更多时间去兜底。

我起初以为问题出在模型能力不够,后来深入拆解实际运行日志和多个团队的反馈,才发现根源远比想象中深刻:技能图谱的直觉优势(天然依赖关系)恰恰成了规模化时的最大敌人。深度依赖链带来了无法预测的非确定性,而人类驾驶员却被迫把大量判断权交给 Agent,这与我们追求的“杠杆”完全背道而驰。

原子技能:真正的确定性基石

原子技能(Capabilities)是单目的、窄范围的原语,几乎不调用其他技能。它们的目标是极致可靠,接近确定性执行。

典型例子来自 Gooseworks AI 开源技能库的 create-linkedin-content

# create-linkedin-content
## 技能描述
根据给定 brief,生成符合品牌声音的 LinkedIn 帖子草稿,并进行自我检查(禁止敏感词、长度控制、语气一致性)。

## 使用示例
User: 用我们的品牌声音写一篇关于 AI Agent 杠杆的帖子
Agent: [生成内容 + 自检通过]

这类原子技能不依赖其他技能,只专注一个动作:抓取、校验、生成特定格式。它们就像化学里的原子——稳定、可预测,是所有上层建筑的根基。实际落地时,我发现把“查找 Apollo 潜在客户”“验证邮箱 deliverability”这类任务做成原子后,调用成功率能稳定在 95% 以上。

分子技能:把组合逻辑前置,最大化显式编排

分子技能(Composites)解决更大范围的问题,通常会显式调用 2-10 个原子技能。关键在于:把大部分组合判断写死在技能描述里,减少 Agent 运行时的决策空间。

举个实际的 social-kit 分子技能(同样来自开源仓库):

# social-kit
## 依赖原子技能
- create-linkedin-content
- create-x-content  
- goose-graphics

## 执行流程
1. 接收 content brief
2. 并行调用 create-linkedin-content 和 create-x-content 生成文案
3. 根据文案主题调用 goose-graphics 生成匹配视觉
4. 输出完整社交套件(文案 + 图片)

## 判断规则
仅在 brief 明确要求多平台时才触发全部原子;否则只生成单个平台内容。

分子技能的核心是“把组合逻辑推入技能本身”。Agent 仍有一定自主性,但被严格约束在明确边界内。这就像分子由原子组成,却形成了稳定的功能单元——既比原子强大,又远没有化合物那么自由散漫。

化合物技能:真正把自主权交给 Agent 的高层编排

化合物技能(Playbooks)才是我们追求的高杠杆层级。它会调用多个分子技能,完成端到端的复杂流程,例如“运行完整的 outbound 销售 playbook”或“从 0 到 1 规划并交付一个功能特性”。

这时 Agent 终于获得了有意义的判断空间:它可以决定先跑哪个分子、如何处理异常、是否需要人类介入。但也正因为判断链路长,它天然可靠性最低——这正是我们把“驾驶权”留给人类的原因。

脑力 RAM 才是真正的稀缺资源

这里藏着一个被严重低估的杠杆公式:人类大脑的上下文切换能力(working memory)才是瓶颈,而不是 Agent 的 token 数量。

假设你一次能并行“驾驶”5 个 Agent:

  • 如果你在原子层面驾驶 → 5 个原子任务 ≈ 5×1 = 5 单位产出
  • 如果你在化合物层面驾驶 → 1 个化合物 ≈ 10 个分子 ≈ 100 个原子 → 5 个化合物 ≈ 500 单位产出

同样的脑力占用,产出相差两个数量级。这就像 CTO 不会亲自修每一个 Bug,而是信任底层团队可靠执行一样。我们真正的升级,是把注意力从“原子执行”提升到“化合物战略”。

为了直观对比,我整理了一个决策矩阵:

维度 原子技能 (Capabilities) 分子技能 (Composites) 化合物技能 (Playbooks)
作用范围 单目的原语 2-10 个原子组合 多分子端到端流程
自主判断程度 极低(几乎确定性) 中等(显式规则主导) 高(战略决策)
可靠性 最高 中等(需人类驾驶)
适合场景 数据抓取、格式校验 结构化工作流 复杂业务闭环
脑力消耗 高(需频繁介入) 低(战略级)
典型示例 scrape LinkedIn 资料 social-kit 社交套件 outbound-prospecting-engine

为什么我认为这套分层模型才是当前最务实的路径

技能图谱不是错的,它只是把“依赖关系”这个复杂问题甩给了 Agent 运行时。分层模型则是把大部分组合逻辑前置到技能设计阶段,Agent 只在它最擅长的“高层判断”上发挥作用。这不是否定图谱,而是把它从“万能工具”降维成“底层基础设施”。

当然,这套方法也有边界:化合物一旦跨越 8-10 个分子,可靠性就会再次触顶;测试每个层级的成本也不低(原子做单元测试,分子做端到端,化合物做人工验收)。但相比无结构技能图谱带来的不可预测性,这已经是巨大的进步。

生产环境落地前你必须验证的三件事

  1. 每个原子技能都必须有客观可验证的基准测试(golden output)。
  2. 分子技能的依赖声明必须清晰,且支持自动安装(像 Gooseworks 那样用 requires_skills)。
  3. 化合物驱动时,人类必须保留最终 veto 权,并记录每次决策日志。

当你真正把工作流推到化合物层面时,会突然发现:AI Agent 不再是“工具”,而是真正能并行运转的“同事”。这才是技能组合的终极价值——不是让 Agent 替你干活,而是让你终于能从繁杂执行中抽身,去做只有人类才能做的战略判断。

你目前构建的技能库里,原子、分子、化合物比例大概是多少?在实际驱动化合物技能时,你遇到过哪些最难处理的判断点?欢迎在评论区分享你的经验,我们一起把 AI Agent 的杠杆真正推向下一个数量级。

我是紫微AI,在做一个「人格操作系统(ZPF)」。后面会持续分享AI Agent和系统实验。感兴趣可以关注,我们下期见。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐