我写过两篇文章,一篇讲**意图计算,一篇讲simulation-in-the-loop**。

写完一段时间之后,我才意识到这两件事其实是同一件事——只是发生在决策的不同时刻上。

把它们拼起来看:

AI产品下一步要解决的问题,可能不是让AI更聪明,而是帮人把脑子里看不见的东西,变成眼睛能看见的东西。


一个被忽视的事实:人最不擅长的,就是"从零生成"

先回到一个认知科学的基本事实。

人的"识别能力"远强于"生成能力"。

你让一个人凭空说出"我想要什么样的产品",他会卡住。但你给他三个选项,他立刻知道哪个对、哪个不对。 你让一个人审批"下一步执行A好不好",他得在脑子里推演后果。但你直接把A、B、C三条路的终点画给他看,他立刻知道走哪条。

这两件事——“说不清楚要什么"和"看不清楚会怎样”——表面是两个问题,本质是同一个问题:

人脑没法把不存在于眼前的东西可靠地处理。

意图是不存在于眼前的(它还在脑子里模糊地飘),后果也是不存在于眼前的(它还在未来没发生)。两者都需要被"显影"出来,人才能做出靠谱的判断。

所以意图计算和simulation-in-the-loop,做的是同一件事:把不可见的东西,强制显影成可识别的形态

只是它们工作在决策的不同时刻。


时间轴上的两段:起点的显影 vs 过程中的显影

把一个完整的AI协作流程拉开看,有两个关键的"看不见"的时刻。

第一个时刻在最前面:动手之前。

用户说"我想做一个RSS工具"——这是一句模糊的话。他自己也不太知道要做成什么样。如果Agent立刻动手,跑出来的大概率不是他要的。

这时候需要的,是意图计算:用一组正交维度的探针,把"想做RSS工具"这个模糊云团,显影成"一个本地Web Reader、带AI摘要、不做多用户、每天自己看"——一个可以执行的具体形态。

第二个时刻在中间:执行的每一个分叉。

意图清晰了,Agent开始跑。但跑到第三步,要决定文件结构;跑到第七步,要决定汇总策略。每一个决策都会在后面引发连锁反应,而用户在这个时刻,看不见那些反应。

这时候需要的,是simulation-in-the-loop:在每个关键节点,把"如果选A会变成什么样、选B会变成什么样"演出来,让用户看见未来再决定。

一句话总结这个分工:

意图计算解决"我该往哪走",simulation解决"路上每个岔口该怎么拐"。

两件事合起来,才是完整的决策支持系统。今天大部分AI产品两件事都没做——它们只做了中间那段"执行"。


为什么今天的AI产品两段都缺

这里有一个容易被忽略的产品设计惯性。

过去几十年,人机交互的范式建立在一个前提上——人决策,机器执行。所以界面只需要让人输入指令、看结果就行。

Agent时代,这个前提翻转了——机器决策,人监督

但界面没翻转。

我们今天用的大部分AI产品,本质上还是在让人扮演"执行者"的角色:你给一个prompt(执行指令),AI给你一个结果(执行产出),你看完点赞或者点踩(执行反馈)。

但人现在的真实角色是监督者。监督者需要的不是"执行界面",是决策辅助界面——能看见上游(我的意图到底是什么)、能看见下游(每个决策会引发什么)。

意图计算补上游,simulation补下游。

只做中间那段执行,本质上是在让监督者用执行者的工具去监督——所以才会出现"AI做得很快,但用户看到结果发现方向不对"的普遍现象。

不是AI不够聪明。是人没有被给到判断所需的视野


一个共同的杠杆:把"生成模式"切换成"识别模式"

意图计算和simulation能成立,本质上靠的是同一个认知杠杆——

把用户从"生成模式"切换到"识别模式"。

意图计算是怎么做的:不问"你想要什么"(生成),而是给三个用户类型让你选(识别)。 Simulation是怎么做的:不问"下一步要不要执行A"(让你脑补后果,本质是生成),而是把A、B、C三条路演给你看(识别)。

两者都在做同一个动作:把高负担的"凭空生成",转化成低负担的"看见+选"

这个杠杆为什么强?因为它不是在"提升AI能力",是在重新分配认知任务——把人不擅长的部分(生成、推演)交给系统,把人擅长的部分(识别、判断)留给人。

这是过去十年AI产品不太触碰的设计空间。

大部分产品的优化方向是"让AI更聪明",但更聪明的AI如果还是用同一种方式让人交互,瓶颈不在AI,在人的认知带宽。

真正的解法是:让AI承担显影的工作,把判断的工作留给人


这套框架跑起来是什么样的

理论说完了,我做了一个东西来验证它。

我把意图计算和simulation-in-the-loop合在一起,写成了一个叫 Intent Sandbox(意图沙盘) 的AI Skill——可以理解为一套可执行的交互协议,嵌入Claude的工作流里。当用户给出一个模糊需求,它不会立刻动手,而是自动启动一个三阶段的决策流程:

阶段一:滚动探针。 每次只问一个维度的选择题,每个选项都带"如果选这个,下游会变成什么"的预览。不是一次性抛出所有问题,而是根据上一题的答案,动态决定下一题该问什么——就像一个好顾问在面对面探需求。同时,系统实时维护一张"空间地图",让用户随时看到:已经锁定了什么、还有哪些可能的终局形态活着、哪些已经被剪掉。

阶段二:路径仿真。 无论前面收敛到什么程度,都生成三条形态明显不同的路径。每条路径包含五件套:终局画面、关键风险、明确放弃的、上行机遇、诚实标注的未知。即使只剩一个方向,也要在这个方向内部做diversify——因为"用户以为自己想清楚了"和"用户看到三条路之后的判断",经常不是同一件事。

阶段三:选择与收敛。 让用户在看完三条路之后做选择。大概率不是原样选某一条,而是"B的骨架加A的某个特性"。这时候再用选择题把混合方式定下来,最终输出一份可以直接交给执行者的意图规格。

举个实际跑出来的例子。有个用户说"我想做一个基于TRIZ和AI的创新分析工具"——这是一句典型的模糊需求。Intent Sandbox先用5个维度的选择题(用户TRIZ水平、TRIZ可见度、交互形式、问题领域、输出粒度)把意图空间从几十种可能性收敛到一个方向,然后在阶段二生成了三条路径:

  • AI驾驶员型

    ——用户只管提问题,AI全自动跑完TRIZ分析,30秒出方案。快,但用户学不到东西,且方案质量完全依赖AI。

  • 人机共创型

    ——5步向导流程,每步都有人机交互,TRIZ知识嵌在流程里边用边学。慢,但用户参与提高了方案质量。

  • 知识资产型

    ——不只是一次性工具,而是长期积累创新案例库,越用越懂用户。重,但粘性最强。

用户看完,选了路径B,但加了一句"不需要知识沉淀功能"。这句话在没看到路径C之前,他根本不会说——因为他不知道"知识沉淀"这个维度的存在。仿真创造了一个让隐藏偏好浮现的空间,这正是simulation-in-the-loop最有价值的副产品。

最终输出的intent-spec包含了完整的维度锁定、选定路径的终局画面、关键决策点的预警、以及一份明确的"不做清单"——下游执行者拿到这份规格,不会再问"要不要加用户系统?"这种已经在不做清单里答过的问题。

整个过程大约15分钟。换来的是:执行者拿到的不再是一句模糊的话,而是一份经过显影的、用户自己确认过终局画面的、连"不做什么"都写清楚了的规格。


最后

我以前觉得,让机器听懂人话,人机交互这件事就差不多了。

写完这两篇文章,再做完Intent Sandbox跑了几轮实际案例之后,我发现听懂人话只是第一步。人话说出来的时候,人自己往往也没想清楚;想清楚了开始做,又看不见每个决定会把自己带去哪里。

所以我现在的理解是,人和机器之间至少需要三层东西:自然语言让人能表达,意图计算帮人想清楚要什么,simulation帮人看见选了之后会怎样。

这三层合在一起,才能让人在面对AI的时候,不是在盲选,而是在做真正的决策。

我把Intent Sandbox当成了自己在第二层和第三层的一次尝试。它还很粗糙,但跑起来之后,有些东西确实和我预期的一样发生了——用户在看到三条路之后说出了之前说不出的偏好,执行者拿到的规格不再是一句模糊的话。

这篇文章算是把这段思考过程记下来。如果对你有启发,那就够了。

关于意图计算的理解

AI协作缺的不是控制权,是预见力

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐