AI SDK: 用 Tool Calling 替代 Output, 并安全解析流式输出

yororoA

377人浏览 · 2026-03-27 22:47:56

yororoA · 2026-03-27 22:47:56 发布

文章目录

AI SDK: 用 Tool Calling 替代 Output, 并安全解析流式输出

AI SDK: 用 Tool Calling 替代 Output, 并安全解析流式输出

最近把一个多 Agent 对话项目从“直接结构化输出 (output)”迁移到了“工具调用 (tool calling)”, 过程中踩了几个很典型的坑, 尤其是前端流式消息解析。
这篇就按实战过程做一次对比:

当前 assistant 消息解析方式 (useChat + message.parts + tool-showResponse)
useObject 的能力边界
之前 output 结构化输出的优缺点

1. 先说结论

在 多 Agent + 流式 + 前端消息渲染 场景里:

output 更像“单步结构化返回”
useObject 更像“单对象流式更新”
tool calling 更像“可编排、可观测、可回退的协议层”

如果你要的是“稳定展示给用户的最终回复”, 推荐把它收敛到一个明确工具里, 比如 showResponse, 然后前端按 role + part.type 分层解析。

2. 背景: 为什么 `output` 在流式场景会变脆

output 的核心优点是直接: 定义 schema, 拿结构化结果, 类型清晰。
但在流式过程中, 前端真实拿到的是 message.parts 的混合片段, 而不是“永远完整且单一”的对象:

可能有 text
可能有 tool-*
可能还有中间状态片段

当你做多阶段编排 (admin -> structure -> critic -> style) 时, “只读最后一段文本”会越来越不稳定。
这时如果仍把展示逻辑绑在自然语言文本上, 很容易出现 UI 显示错位或空白。
更关键的问题是：通过 output 约束的结构化结果在流式阶段通常以文本增量传输，前端在中途解析时容易遇到 JSON 不完整等问题。

3. 迁移思路: 把“给用户看的最终答复”变成工具参数

我在 agent 中定义了一个专门用于展示的工具:

showResponse: tool({
  description: "Show the response to the user.",
  inputSchema: z.object({
    text: z.string(),
    necessary: z.boolean(),
    uiDescription: z.string(),
    uiNeeds: z.array(z.string()),
  }),
})

这一步的意义是:

把“最终展示载荷”从自然语言里剥离出来
让最终展示内容受 schema 约束
前端读取路径统一为 tool-showResponse.input

换句话说, 我们不再“猜模型说了什么”, 而是“消费模型明确提交的参数”。

4. 当前 assistant 消息解析方式 (安全解析)

这里最关键的是 按角色分流, 不能所有消息都按工具字段去读:

const getMessageText = (message: AdminAgentMessage) =>
  message.parts
    ?.map((part) => (part.type === "text" ? part.text : ""))
    .join("")
    .trim();

const getDisplayText = (message: AdminAgentMessage) => {
  if (message.role === "user") {
    return getMessageText(message) || "(empty user message)";
  }

  const toolText = message.parts
    .find((part) => part.type === "tool-showResponse")
    ?.input?.text;

  return toolText || getMessageText(message) || "(non-text message)";
};