我做了一个意图沙盘,想解决AI协作里最常见的失败
我写过两篇文章,一篇讲**意图计算,一篇讲simulation-in-the-loop**。
写完一段时间之后,我才意识到这两件事其实是同一件事——只是发生在决策的不同时刻上。
把它们拼起来看:
AI产品下一步要解决的问题,可能不是让AI更聪明,而是帮人把脑子里看不见的东西,变成眼睛能看见的东西。
一个被忽视的事实:人最不擅长的,就是"从零生成"
先回到一个认知科学的基本事实。
人的"识别能力"远强于"生成能力"。
你让一个人凭空说出"我想要什么样的产品",他会卡住。但你给他三个选项,他立刻知道哪个对、哪个不对。 你让一个人审批"下一步执行A好不好",他得在脑子里推演后果。但你直接把A、B、C三条路的终点画给他看,他立刻知道走哪条。
这两件事——“说不清楚要什么"和"看不清楚会怎样”——表面是两个问题,本质是同一个问题:
人脑没法把不存在于眼前的东西可靠地处理。
意图是不存在于眼前的(它还在脑子里模糊地飘),后果也是不存在于眼前的(它还在未来没发生)。两者都需要被"显影"出来,人才能做出靠谱的判断。
所以意图计算和simulation-in-the-loop,做的是同一件事:把不可见的东西,强制显影成可识别的形态。
只是它们工作在决策的不同时刻。
时间轴上的两段:起点的显影 vs 过程中的显影
把一个完整的AI协作流程拉开看,有两个关键的"看不见"的时刻。
第一个时刻在最前面:动手之前。
用户说"我想做一个RSS工具"——这是一句模糊的话。他自己也不太知道要做成什么样。如果Agent立刻动手,跑出来的大概率不是他要的。
这时候需要的,是意图计算:用一组正交维度的探针,把"想做RSS工具"这个模糊云团,显影成"一个本地Web Reader、带AI摘要、不做多用户、每天自己看"——一个可以执行的具体形态。
第二个时刻在中间:执行的每一个分叉。
意图清晰了,Agent开始跑。但跑到第三步,要决定文件结构;跑到第七步,要决定汇总策略。每一个决策都会在后面引发连锁反应,而用户在这个时刻,看不见那些反应。
这时候需要的,是simulation-in-the-loop:在每个关键节点,把"如果选A会变成什么样、选B会变成什么样"演出来,让用户看见未来再决定。
一句话总结这个分工:

两件事合起来,才是完整的决策支持系统。今天大部分AI产品两件事都没做——它们只做了中间那段"执行"。
为什么今天的AI产品两段都缺
这里有一个容易被忽略的产品设计惯性。
过去几十年,人机交互的范式建立在一个前提上——人决策,机器执行。所以界面只需要让人输入指令、看结果就行。
Agent时代,这个前提翻转了——机器决策,人监督。
但界面没翻转。
我们今天用的大部分AI产品,本质上还是在让人扮演"执行者"的角色:你给一个prompt(执行指令),AI给你一个结果(执行产出),你看完点赞或者点踩(执行反馈)。
但人现在的真实角色是监督者。监督者需要的不是"执行界面",是决策辅助界面——能看见上游(我的意图到底是什么)、能看见下游(每个决策会引发什么)。
意图计算补上游,simulation补下游。
只做中间那段执行,本质上是在让监督者用执行者的工具去监督——所以才会出现"AI做得很快,但用户看到结果发现方向不对"的普遍现象。
不是AI不够聪明。是人没有被给到判断所需的视野。
一个共同的杠杆:把"生成模式"切换成"识别模式"
意图计算和simulation能成立,本质上靠的是同一个认知杠杆——
把用户从"生成模式"切换到"识别模式"。
意图计算是怎么做的:不问"你想要什么"(生成),而是给三个用户类型让你选(识别)。 Simulation是怎么做的:不问"下一步要不要执行A"(让你脑补后果,本质是生成),而是把A、B、C三条路演给你看(识别)。
两者都在做同一个动作:把高负担的"凭空生成",转化成低负担的"看见+选"。
这个杠杆为什么强?因为它不是在"提升AI能力",是在重新分配认知任务——把人不擅长的部分(生成、推演)交给系统,把人擅长的部分(识别、判断)留给人。
这是过去十年AI产品不太触碰的设计空间。
大部分产品的优化方向是"让AI更聪明",但更聪明的AI如果还是用同一种方式让人交互,瓶颈不在AI,在人的认知带宽。
真正的解法是:让AI承担显影的工作,把判断的工作留给人。
这套框架跑起来是什么样的
理论说完了,我做了一个东西来验证它。
我把意图计算和simulation-in-the-loop合在一起,写成了一个叫 Intent Sandbox(意图沙盘) 的AI Skill——可以理解为一套可执行的交互协议,嵌入Claude的工作流里。当用户给出一个模糊需求,它不会立刻动手,而是自动启动一个三阶段的决策流程:
阶段一:滚动探针。 每次只问一个维度的选择题,每个选项都带"如果选这个,下游会变成什么"的预览。不是一次性抛出所有问题,而是根据上一题的答案,动态决定下一题该问什么——就像一个好顾问在面对面探需求。同时,系统实时维护一张"空间地图",让用户随时看到:已经锁定了什么、还有哪些可能的终局形态活着、哪些已经被剪掉。
阶段二:路径仿真。 无论前面收敛到什么程度,都生成三条形态明显不同的路径。每条路径包含五件套:终局画面、关键风险、明确放弃的、上行机遇、诚实标注的未知。即使只剩一个方向,也要在这个方向内部做diversify——因为"用户以为自己想清楚了"和"用户看到三条路之后的判断",经常不是同一件事。
阶段三:选择与收敛。 让用户在看完三条路之后做选择。大概率不是原样选某一条,而是"B的骨架加A的某个特性"。这时候再用选择题把混合方式定下来,最终输出一份可以直接交给执行者的意图规格。
举个实际跑出来的例子。有个用户说"我想做一个基于TRIZ和AI的创新分析工具"——这是一句典型的模糊需求。Intent Sandbox先用5个维度的选择题(用户TRIZ水平、TRIZ可见度、交互形式、问题领域、输出粒度)把意图空间从几十种可能性收敛到一个方向,然后在阶段二生成了三条路径:
-
AI驾驶员型
——用户只管提问题,AI全自动跑完TRIZ分析,30秒出方案。快,但用户学不到东西,且方案质量完全依赖AI。
-
人机共创型
——5步向导流程,每步都有人机交互,TRIZ知识嵌在流程里边用边学。慢,但用户参与提高了方案质量。
-
知识资产型
——不只是一次性工具,而是长期积累创新案例库,越用越懂用户。重,但粘性最强。
用户看完,选了路径B,但加了一句"不需要知识沉淀功能"。这句话在没看到路径C之前,他根本不会说——因为他不知道"知识沉淀"这个维度的存在。仿真创造了一个让隐藏偏好浮现的空间,这正是simulation-in-the-loop最有价值的副产品。
最终输出的intent-spec包含了完整的维度锁定、选定路径的终局画面、关键决策点的预警、以及一份明确的"不做清单"——下游执行者拿到这份规格,不会再问"要不要加用户系统?"这种已经在不做清单里答过的问题。
整个过程大约15分钟。换来的是:执行者拿到的不再是一句模糊的话,而是一份经过显影的、用户自己确认过终局画面的、连"不做什么"都写清楚了的规格。
最后
我以前觉得,让机器听懂人话,人机交互这件事就差不多了。
写完这两篇文章,再做完Intent Sandbox跑了几轮实际案例之后,我发现听懂人话只是第一步。人话说出来的时候,人自己往往也没想清楚;想清楚了开始做,又看不见每个决定会把自己带去哪里。
所以我现在的理解是,人和机器之间至少需要三层东西:自然语言让人能表达,意图计算帮人想清楚要什么,simulation帮人看见选了之后会怎样。
这三层合在一起,才能让人在面对AI的时候,不是在盲选,而是在做真正的决策。
我把Intent Sandbox当成了自己在第二层和第三层的一次尝试。它还很粗糙,但跑起来之后,有些东西确实和我预期的一样发生了——用户在看到三条路之后说出了之前说不出的偏好,执行者拿到的规格不再是一句模糊的话。
这篇文章算是把这段思考过程记下来。如果对你有启发,那就够了。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐


所有评论(0)