全球首个人类意图 LLM 对齐实验成功

Yuer2025

82人浏览 · 2026-05-23 02:18:24

Yuer2025 · 2026-05-23 02:18:24 发布

过去这几年，很多人都在问一个问题：

怎么把提示词写得更好？

但我认为，这不是 LLM 进入真实工作流的核心问题。

真正的问题是：

同一个 LLM，为什么有时候像专家，有时候又像平庸实习生？
它的高质量输出状态，能不能被稳定复现？
它能不能不是“自由回答”，而是进入一个明确的任务状态？

我做了一个小实验。

输入是一段真实项目需求。普通 GPT 模式下，它可以写出一篇非常漂亮、非常专业的 proposal。
但漂亮不等于判断完成。

我真正想验证的是：
能不能让一个冷启动 GPT，不靠它自由发挥，而是被驱动到一个明确任务状态里，先接住人的模糊意图，再做阶段决策，再产出可继续推进的项目交付物？

结果是：可以。

这就是我说的：

人类模糊意图，第一次可以被 LLM 接住，并转成可推进、可检查、可升级的任务状态。

1. LLM 有基础能力，但能力状态会波动

LLM 本身当然有基础能力。

它会理解语言，会提取结构，会写方案，会总结，会翻译，会生成代码，也会用非常漂亮的文采把一个问题讲得像已经想清楚了。

但问题也在这里。

它太会写了。

很多时候，AI 输出看起来很完整：

我理解你的需求。
我会这样做。
我会用这些框架。
我会分阶段实施。
我会注意风险。

这类回答不一定错。
甚至，它经常很像样。

但它未必真的处在正确任务状态。

它可能只是进入了“专业回答状态”。
可能只是进入了“投标信状态”。
可能只是进入了“泛泛建议状态”。
可能只是把还没有判断清楚的东西，用很流畅的语言包装成了一个完整答案。

这才是危险的地方。

LLM 最大的问题，不是它不会回答。
而是它会把一个还没判断过的问题，写得像已经判断过了。

所以，真正需要研究的不是：

怎么让它写得更好？

而是：

怎么让它稳定进入正确任务状态？

这就是 TSCP 出现的原因。

2. 什么是 TSCP？

TSCP，全称：

Task State Compilation Protocol Stack
任务状态编译协议栈

它不是一个提示词模板。
不是某个 Agent 框架。
不是模型封装器。
也不是某个人的私有实现。

它解决的是一个更底层的问题：

如何把人类模糊表达出来的意图，接住，并转成 LLM 可以处理、可以推进、可以验收的任务状态。

换成人话：

普通人让 AI 回答。
TSCP 给 AI 铺轨。

所谓“铺轨”，就是不让 LLM 一上来就自由发挥，而是先确定：

这个任务现在处于什么阶段？
它现在该做什么？
不该做什么？
哪些信息是事实？
哪些只是猜测？
哪些变量还缺？
哪些风险不能忽略？
什么时候应该继续？
什么时候应该暂停？
什么时候应该拒绝？
最后产出的东西能不能进入下一步？

这不是为了把 AI 变笨。
恰恰相反，这是为了释放它的严肃任务能力。

我的核心判断很简单：

驱动/调度 LLM，是释放 LLM 严肃任务能力的唯一方式。

实现方式可以不同。
你可以用工作流引擎、状态机、JSON Schema、评测系统、Agent 框架、企业内部流程、审计规则，怎么做都行。

但只要 LLM 要进入真实任务流，就绕不开一件事：

它必须进入明确任务状态。

否则，它就只是在回答。

3. TSCP 的重要性，不是谁定义出来的

TSCP 重要，不是因为我说它重要。

它是倒推出来的。

如果 OpenAI、Google、Anthropic 这些公司，本质上是 AI 基础设施服务提供商，那么它们提供的是：

模型能力、API、工具调用、上下文窗口、Agent SDK、开发平台、算力和托管能力。

但它们天然不会替每个用户判断这些东西：

用户真实任务到底是什么？
任务现在处于哪个阶段？
输入是否足够？
目标函数是否变了？
哪些状态允许迁移？
输出是否达到验收标准？
失败后应该回滚到哪里？
交付物是否可审计、可复用、可交接？

这些不是模型基础设施本身的问题。

这是任务状态管理问题。

也就是说，AI 基础设施越来越强，但人的任务状态并不会自动被管理。

这个空白，正是 TSCP 这类任务状态层必然出现的原因。

一句话：

AI 基础设施提供能力。
TSCP 负责让人的意图以正确任务状态进入这些能力。

4. 工具的第一性原理：接住人类意图

所有真正有价值的工具，本质上都在接住人类意图。

Photoshop 能存在，是因为它接住了设计师的视觉创意。

Excel 能存在，是因为它接住了人类对表格、数字、关系和计算的意图。

IDE 能存在，是因为它接住了程序员把想法变成代码的意图。

如果 Photoshop 接不住设计师的创意，它就没有意义。
如果 Excel 接不住人类对数据关系的表达，它也不会成为基础工具。

LLM 也不例外。

LLM 是大语言模型。
它的第一性着力点就是自然语言。

而真实世界里的自然语言，往往装着大量还没成型的东西：

模糊目标、隐含担忧、缺失变量、风险信号、阶段性需求、行动倾向。

所以 LLM 最该完成的靶向任务，不是直接替人干活。

而是：

接住人类用自然语言表达出来的模糊意图。

如果它连人的意图都接不住，后面的 Agent、API、自动化、商业系统，都只是更快地把错误放大。

5. 一旦 AI 做对了靶向任务，应用场景会自然展开

只要 LLM 能稳定接住自然语言里的真实任务状态，很多场景都会变得清楚。

市场

市场不只给数字，也给表达。

新闻、公告、评论、帖子、用户情绪、交易者反馈，都是自然语言表达。

这里的重点不是让 AI 直接预测市场。

而是先让 AI 接住市场表达：

哪些是事实？
哪些是假设？
哪些是风险信号？
哪些证据还缺？
哪些结论不能立刻下？

只要表达能被接住，后面的分析才有基础。

模糊需求对接

客户经常说不清自己真正要什么。

他说：

我要一个 AI Agent。
我要自动化。
我要提效。
我要一个智能系统。

普通 AI 很容易马上写方案。

但真正应该先问：

他真实要解决的问题是什么？
哪些需求是明确的？
哪些只是猜测？
哪些信息还缺？
当前应该做项目定义、流程澄清、PoC、API，还是 Agent 系统？
哪些东西第一阶段不能做？

这就是把需求接住。

投流和内容

广告、评论区、用户反馈、购买犹豫、信任点、负面词，都是自然语言表达。

AI 的价值不是直接替人拍板。

而是先接住这些表达：

用户在犹豫什么？
什么信息让他停下？
什么内容建立信任？
什么说法容易误导？
什么需要人工审核？

AI 项目投标

这是我这次实验用的方向。

同一个真实 AI 项目需求，普通 GPT 可以写出一封不错的投标信。

但普通投标信通常停在：

我理解你的项目。
我会用这些技术。
我会分阶段做。
我会注意风险。

看起来专业，但没有完成真正的阶段判断。

我想要的是：

当前项目该从哪一层开始？
为什么不是更低层？
为什么不是更高层？
第一阶段交付物是什么？
什么时候升级？
怎么验收？
怎么衡量收益？
这个阶段决策能不能成为后续审计节点？

这才不是“会写”。
这是“接住任务”。

6. AGI 能脱离 TSCP 吗？

答案很明确：

不能。

即使未来模型更强，只要它进入真实任务流，仍然需要任务状态。

因为真实工作天然包含：

阶段、权限、审批、证据、验收、回滚、交接、审计。

模型越强，越不能让它自由漂浮。

能力越大，越需要状态边界。

AGI 可以更聪明地理解人类意图，但它仍然需要知道：

当前任务状态是什么？
现在允许做什么？
什么必须等待人类确认？
什么输出可以进入下一步？
什么情况必须停下？
失败后回到哪里？

所以 TSCP 不是某个阶段的小技巧。

它是 LLM 或 AGI 进入真实工作流时绕不开的任务状态问题。

7. TSCP 不是谁凭空设计出来的

TSCP 不是因为某个人想造一个新概念。

它是从这些事实自然推出来的：

LLM 有基础能力，但输出状态会波动。
真实任务需要状态，而 LLM 原生不维护任务状态。
AI 基础设施厂商不负责用户具体任务状态。
工具的第一性原理是接住人类意图。
自然语言正是 LLM 的主战场。
严肃工作流必须有阶段、边界、验收和审计。

所以 TSCP 的出现并不神秘。

它就像操作系统之于个人电脑。

不是因为某个桌面界面伟大，
而是因为裸硬件无法直接承载复杂应用。

TSCP 之于 LLM 也是一样。

不是因为某个实现名字重要，
而是因为裸 LLM 无法直接承载复杂任务流。

8. 我这次实验到底证明了什么？

这次实验不是证明 GPT 会写一封更漂亮的 proposal。

普通 GPT 已经很会写了。
很多时候，它的文采比人强得多。

但文采不是专业。
表达完整不等于判断正确。
结构漂亮不等于任务状态正确。

我这次验证的是另一件事：

一个冷启动 LLM，能否被驱动到明确任务状态，先接住人的模糊意图，再给出阶段决策，最后生成可继续推进的交付物。

结果是可以。

它没有停在普通回答状态。
它完成了从原始输入、任务识别、问题拆解、阶段决策到最终交付物的状态迁移。

这才是我认为真正重要的地方。

9. 结论

LLM 不缺语言能力。

它缺的是任务状态。

普通人让 AI 回答。
高手给 AI 铺轨。

TSCP 要解决的，不是让 AI 听起来更聪明。

它要解决的是：

在人的模糊意图变成错误工作之前，先把它接住。

释放 LLM 严肃任务能力的唯一方式，是让它进入正确任务状态。

不是更漂亮的提示词。
不是更长的上下文。
不是更多专业术语。

而是任务状态。

模型一旦处在错误状态，越流畅的回答越危险。
模型一旦处在正确状态，输出才可以被检查、暂停、拒收、升级、交接和继续推进。

这，就是 TSCP 的意义。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

比赛周期化训练体系：Base/Build/Peak/Taper四阶段算法实现

AtomGit开源社区

SQL Server 数据库设计

数据是用来描述现实中的物体的，而描述的对象都是形形色色的，有具体的、也有抽象的；第一范式是满足关系数据库模型所要遵循的最基本的条件范式，几关系中的每个属性必须是不可再分的简单项，不能是属性组合，即属性的取值是不可拆分的原子值。2、概要设计阶段：绘制数据库的E-R图，并确认需求文档的正确性和完整性，E-R图是项目的设计人员、开发人员、测试人员，以及和客户进行沟通的重要凭据。一个较好的关系数据库模型