知识点之大模型输出的 JSON 总是不稳定？

IManiy

300人浏览 · 2026-06-11 10:19:42

IManiy · 2026-06-11 10:19:42 发布

大模型输出的 JSON 总是不稳定？你可能缺了这套组合拳！

概览部分

内容摘要

本视频深入探讨了大模型输出 JSON 不稳定的问题，从问题根源到三层处理方案（事前引导、事中约束、事后补救）进行了系统性分析。重点讲解了如何通过 Prompt 优化、Structured Outputs、正则提取、JSON Repair、Pydantic 校验和重试机制等手段构建完整的工程解决方案，并提供了面试答题模板和常见误区提醒。

核心观点

大模型输出 JSON 不稳定本质是概率问题，不是格式问题
工程处理应分三层次：事前引导、事中约束、事后补救
Structured Outputs 是最强大的约束手段，但需注意 schema 设计
事后兜底链路必须完整，包括正则提取、JSON Repair、校验和重试机制
面试考察的是工程思维，而非单纯的技术点记忆

1. 问题背景与考察意图

在技术面试中，大模型输出 JSON 不稳定是一个高频问题。很多同学在回答时只会提到 “使用 JSON Mode”，结果被追问时就卡壳了。这说明他们没有真正理解问题的本质，也没有掌握系统的工程处理思路。

关键观点: 面试官真正想看的是你有没有工程思维，而不是是否看过官方文档。

这个问题表面看是格式问题，实际上是概率问题。大模型生成文本的本质是逐 token 采样，它根据训练数据学会了 JSON 的统计特征，但不能保证字段、类型、结构都正确。早期测试显示，JSON Mode 的合格率只有约 30%，每 50 个请求中有 6 个是错误的。

2. 问题根源分析

很多人误以为大模型有内置 JSON 解析器，让它输出 JSON，它就会乖乖给出格式正确的 JSON。实际上，大模型生成的是文本，它只是学会了 JSON 的统计模式，而不是严格的语法规则。

关键观点: 大模型本质上是概率生成器，不是规则引擎。

就像学英语语法的人也可能写出语法错误的句子一样，大模型生成的 JSON 也可能出现字段缺失、类型错误、嵌套结构混乱等问题。因此，我们需要从工程角度出发，设计一套完整的处理方案。

3. 三层处理方案

3.1 事前引导：Prompt 优化

这是成本最低、见效最快的第一道防线。核心方法有三个：

明确字段规则：不要只说“以 JSON 格式返回”，要详细说明每个字段的类型、取值范围、格式要求。
给 Few-Shot 示例：大模型有上下文学习能力，给他看两个输入输出的例子，比用一堆文字描述更有效。
加校验指令：让模型在输出前自己检查一遍 JSON 语法。

关键观点: Prompt 优化只能作为辅助手段，不能作为主力。

对于开源模型或低资源部署场景，效果会大打折扣。因此，我们还需要更强的约束手段。

3.2 事中约束：Structured Outputs

Structured Outputs 是 JSON Mode 的升级版，不仅保证格式合法，还能约束字段名、字段类型、必填项等。其底层原理是有限状态机（FSM），模型每生成一个 token，FSM 就转移一次状态，把不合法的 token 概率直接置零。

使用时需要注意以下三个参数：

additionalProperties 要设为 False，不允许多余字段
strict 设为 True，严格约束
schema 层级不要超过三层，否则会导致状态爆炸

除了 Structured Outputs，还有两个值得了解的方案：

Function Calling：定义一个工具，参数就是 JSON Schema，模型调用工具时必须严格按照参数规范输出。
Guided Decoding：如果使用 VLM、SLENA 等推理框架，可以在推理层面做约束，通过正则表达式或 JSON Schema 指定输出格式。

关键观点: Structured Outputs 是最强的约束手段，但需要合理设计 schema。

3.3 事后补救：多层兜底机制

即使使用了最强的约束手段，生产环境仍可能出错。因此，事后补救链路必须建好，推荐四步走：

正则提取：不管模型输出什么，先用正则把纯 JSON 内容提取出来，去掉 markdown 代码块和前后废话。
JSON Repair：正则提取只能拿到纯文本，JSON 本身可能还有末尾多个逗号、引号没闭合、少了括号等问题，JSON Repair 库可以本地处理。
Pydantic 校验：到这一步，JSON 语法没问题，但还要校验字段是否匹配业务要求，比如 sentiment 字段只能是 positive、neutral、negative。
重试机制：如果前三步都失败，触发重试，采用指数退避策略，第一次等 1 秒，第二次等 2 秒，第三次等 4 秒，三次都失败就降级处理。

关键观点: 事后补救链路必须完整，才能应对各种异常情况。

4. 面试答题模板与常见误区

入门版答题模板

大模型输出 JSON 不稳定，是因为它本质上是一个概率生成器，不是规则引擎。从三个层次处理：事前引导（Prompt 优化）、事中约束（JSON Mode 或 Structured Outputs）、事后兜底（正则提取 + JSON Repair + Pydantic 校验 + 重试机制）。

进阶版答题模板

重点放在 Structured Outputs 上，说明它通过 JSON Schema 作双重约束，底层用有限状态机机制，Schema 设计控制在三层以内，避免状态爆炸。

高手版答题模板

有量化结果，如上线后 JSON 解析失败率从 65% 降到 0.3% 以下；有踩坑经历，如 schema 太深导致状态爆炸；有闭环，说明如何持续监控和优化。

必须避开的四个坑

以为 JSON Mode 能解决所有问题：它只保证格式合法，字段名、类型、数量都不保证。
Schema 嵌套太深：可能导致状态爆炸，高并发场景下可能直接崩溃。
依赖硬约束，忽视后处理：没有 100% 有效的方案，模型版本升级可能导致效果退化。
忽视模型能力差异：国产模型支持情况参差不齐，Quantable 在 schema 复杂时效果不稳定。

关键观点: 技术面试不是背书，是聊天，让面试官觉得你在解决问题，而不是回忆知识点。

5. 总结与行动建议

全文总结

本视频系统性地分析了大模型输出 JSON 不稳定的本质原因，提出了从事前引导、事中约束到事后补救的三层处理方案。通过 Prompt 优化、Structured Outputs、正则提取、JSON Repair、Pydantic 校验和重试机制等手段，构建了一套完整的工程解决方案。同时，还给出了不同层级的面试答题模板和常见误区提醒，帮助读者更好地理解和应用这些知识。

核心收获

大模型输出 JSON 不稳定是概率问题，不是格式问题
工程处理应分三层次：事前引导、事中约束、事后补救
Structured Outputs 是最强大的约束手段，但需注意 schema 设计
事后兜底链路必须完整，包括正则提取、JSON Repair、校验和重试机制
面试考察的是工程思维，而非单纯的技术点记忆
有量化结果、踩坑经历和闭环优化是加分项

行动建议

在项目中引入 Structured Outputs 作为核心约束手段
设计合理的 JSON Schema，控制嵌套层级不超过三层
构建完整的 JSON 处理链路，包括正则提取、JSON Repair、校验和重试
定期监控解析成功率，持续优化处理流程

延伸思考

如何在不同模型之间进行适配和优化？
如何设计可扩展的 JSON Schema 体系？
如何将 JSON 处理与实际业务逻辑深度结合？

附录

术语表

Structured Outputs：OpenAI 提供的一种输出格式约束机制，通过 JSON Schema 控制输出内容。
JSON Repair：用于修复格式错误的 JSON 文本的库。
Pydantic：用于数据验证的 Python 库，支持 JSON Schema。
Finite State Machine (FSM)：一种状态转移机制，用于在生成过程中动态限制输出。
Guided Decoding：一种在推理过程中对输出进行约束的技术，可通过正则表达式或 JSON Schema 实现。

参考资料

OpenAI API 文档 - Structured Outputs
JSON Repair GitHub 仓库
Pydantic 官方文档
VLM 和 SLENA 推理框架文档

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

KV Cache 到底是什么？一文讲透大模型推理加速原理

AtomGit开源社区

大厂 Java 面试实录：从音视频内容社区到 AI RAG 的全链路技术设计

通过一个互联网大厂 Java 面试故事场景，让读者在轻松对话中理解音视频与内容社区场景下的微服务架构设计、Spring Boot 与 Spring Cloud 技术栈选型、缓存与消息队列、监控与日志体系、AI RAG 能力接入等关键知识点，小白也能看懂并入门。

AtomGit开源社区

Faust：把 Kafka Streams 搬到 Python 里

Faust 是 Robinhood 开源的 Python 流处理库（6.8k Star），将 Kafka Streams 功能引入 Python 生态。它无需 DSL，基于 async/await 语法，支持静态类型检查，通过装饰器定义流处理逻辑。Faust 提供分布式 K/V 存储和状态管理，支持窗口聚合与故障恢复，单核每秒可处理数万事件，天然支持水平扩展。与主流 Python 库（如 NumP