扒开顶级模型的系统提示词

神经墨客

381人浏览 · 2026-04-04 16:00:24

神经墨客 · 2026-04-04 16:00:24 发布

今天在github上闲逛时偶然间看到一个名为 system_prompts_leaks 的项目，汇总了各种顶级模型的系统提示词。除了引人注目的旗舰模型外，其中还包含了各家模型的不同版本以及许多顶级工具（比如Claude Code, Claude Cowork, Comet Browser）的system prompt.

当然了，这个项目其实已经十分有名，有高达37.1k的star并一直处于活跃状态。但是此次此刻看到和prompt相关的项目，突然心生一种久远感。因为在今天，我们讨论的重点早已变成了如何通过编写skill为模型赋能，如何打造一个更可靠、更高效的智能体，如何设计AI时代软件工程的新范式。Prompt Engineering、MCP这些词语似乎已经成了旧时代的议题。MCP式微或许是大势所趋，逐渐被更轻量级、更灵活的skill所取代，但是Prompt Engineering的降温并不代表它不重要了。恰恰相反，在我看来，这反而是一个技术走向成熟和底层化的标志。

为什么我们感觉它不火了？其中一个重要的因素在于模型理解能力的"暴力"提升：早期模型（如 GPT-3）像个脾气古怪的文学青年，你必须用极其精确的字眼、特定的格式才能激发它的能力。而现在的模型指令遵循能力大幅增强，即使你的 Prompt 写得一般，它也能通过强大的语义理解"猜"出你的意图。再者，大家逐渐发现，与其花 10 小时磨练一个 Prompt，不如给模型一个好的技能库或者一个好的反思循环（Reflection loop），通过工具来拓展模型的能力边界，同时也通过工具更好地约束模型的行为，而不再只是依赖提示词驱动。所以现在的技术焦点也已经从"怎么写好一段需求"转移到了 Agentic Workflow（智能体工作流）、RAG（检索增强生成）和长文本处理上。最后我认为则是技能的常态化，就像 20 年前"搜索技巧"是一门高级技能，而现在它成了每个职场人的基本素养。Prompt Engineering 正在变成一种通用背景板技能，也就不再需要被单独拎出来大肆讨论了。

时代在变，Prompt Engineering 的内涵也是如此：犹记得gpt横空出世之时，我们都热衷于如何通过提示词调教它，我们希望它是一个拥有我们所期望的个性的聊天机器人，但随着AI工程化需求的爆发和工业化的落地，我们逐渐转向扮演架构师的角色，简单的对话提示词确实不再值钱，但如何设计复杂的 System Prompt来约束智能体的行为、如何通过 少样本示例精准控制输出格式，依然是决定 AI 产品好坏的核心门槛。同时随着模型支持的上下文越来越长，如何在浩如烟海的信息中引导模型关注重点，这种"注意力引导"式的提示工程变得前所未有的重要。

现在我们不妨来扒一扒顶级模型的系统提示词里到底藏着什么，顶级工具和顶级模型的系统提示词之间又有什么不同。（由于提示词的原文过长，我们直接挑重点来分析）

顶级模型的系统提示词对比：GPT-5.4 Thinking vs Claude Opus 4.6

如果只用一句话概括这两份提示词的核心差异：Claude 在给模型塑人格，GPT 在给模型立规程。

先看 Claude Opus 4.6。这份提示词篇幅相当大，但通读下来会发现，它的核心关切不是"让模型更能干"，而是把一个已经很强的模型约束成一个稳定、可预期、不让用户感到不适的产品化人格。在结构上，它大量使用 XML 标签分区（<safety>、<memory_system>、<user_wellbeing> 等），形成类似可机器解析的规范结构，便于注入和版本管理。

具体拆解它的几个有意思的设计：

记忆使用的"反恐怖谷"治理。 Claude Opus 4.6 用了整整一节来约束记忆系统的表达方式，给出大量禁用短语，比如"I noticed in our previous conversation that…"这类会让用户感觉被监控的说法，然后逐一给出对应的"正确"写法。这里解决的不是功能问题，而是体验心理问题：记忆本身是有用的，但一旦表达方式不对，就会触发用户的隐私警觉，反而毁掉整个体验。把"如何说出来不吓人"当成需要专门治理的问题，是很多开发者不会主动想到的。

安全规则不停留在禁止清单层面。 提示词里有一条写得很直接：“如果模型发现自己在脑内对某个请求进行重新解读以使其看起来可接受，那么这个重新解读本身就是拒绝的信号（If Claude finds itself mentally reframing a request to make it acceptable, that reframing is the signal to REFUSE）。” 这条针对的是一种非常具体的失败模式：模型通过自己的推理绕过安全约束，而不是被外部指令绕过。能把这种边界情况单独写进提示词，说明这是被真实踩过的坑。

用户福祉被放在与内容安全同等的位置。 对心理健康、自伤风险、饮食障碍等场景的条款密度，明显超出大多数人设计系统提示词时的预期。背后的产品逻辑是：Claude 的核心使用场景之一是长期的一对一深度交互，用户的信任程度比用搜索引擎高得多，“软风险”（情绪依赖、关系幻觉、不当强化）因此需要和硬性内容安全一起纳入治理。

再看 GPT-5.4 Thinking。这份提示词的结构风格截然不同，用标准 Markdown 章节组织，整体更像面向工程团队的执行手册。它的核心设计哲学是可验证性优先：算术推导必须逐步展开（跳步容易出错）；涉及具体事实必须给出来源引用（让幻觉的代价变得可见）；不确定的事就要明说不确定，而不是给一个听起来合理的答案。

在工具使用上，GPT-5.4 Thinking 的**技能调用门禁（Skill Invocation Rules）**写得相当强硬，用近乎命令式的语言要求"先匹配技能再作答"，防止模型在明知有工具可用的情况下选择跳过。这对应的是一个现实问题：模型有时候觉得自己"已经知道答案"，于是直接回答，但这个答案可能已经过时，或者格式不符合下游系统的要求。门禁的意义就在于强制模型不跳过这一步。

同样值得关注的是，GPT-5.4 Thinking 把所有可调用工具的入参、出参、有效调用通道和 token 预算等，以近似 API 规范的形式列出。这背后的思路很清晰：与其依赖模型推断工具怎么用，不如把接口描述清楚，让遵循规范比自由发挥更自然——这是经典的"通过结构约束行为"的工程化思维，在 GPT 这份提示词里体现得比 Claude 那份更为突出。

两份提示词对比下来，能看到两家公司在产品形态上的不同侧重，但也浮现出一个共同的底层判断：无论是安全还是工具使用，顶级产品都不会把这些留给模型自由发挥，而是把它们包裹进精心设计的决策框架。这两个维度的治理质量，可能正是区分"能用的 AI 产品"和"值得信赖的 AI 产品"的核心分水岭。

回头看这两份提示词里具体的设计，它们分别给了开发者三个不同层次的启发：Claude 的记忆治理告诉我们，功能正确之外，表达方式本身需要专门设计；它的安全条款告诉我们，重要规则需要写到足够具体，具体到覆盖模型可能自行绕过的路径；而 GPT 的工具规范告诉我们，工具接口描述清楚，比写"适时使用"有效得多。这三点加在一起，比任何通用建议都更值得直接拿去用。

系统提示词的演进：Claude Sonnet 3.7 → Claude Sonnet 4.6

这组对比提供了一个难得的纵向视角：同一产品线、跨代演进，可以清楚地看到随着模型能力增强，系统提示词的设计重心是如何漂移的。结论可以先说：从 3.7 到 4.6，系统提示词从"规则清单"演进成了"运行时合同"。

Sonnet 3.7 的核心关切相对集中——“带检索的对话助手如何才能可信”：当回答依赖 web_search 或 Google Drive 时必须给出规范 citations；根据问题复杂度来决定工具调用的次数与深度（避免无谓的多次搜索）；artifacts 怎么交付、用户上传文件怎么读取，都写成操作规程；版权复现的硬约束（15词引用上限、单一来源最多引用一次等）也写得非常具体。整体可以理解为：在"有工具的文本助手"这个产品形态下，把可信性、合规性、工具调用正确性压住，就是最核心的事。

Sonnet 4.6 保留了这套骨架，但在此基础上补齐了"长期交互代理"所需的完整治理层。几个最显著的新增值得拆开看：

Past Chats 成为一等能力，并配套了完整的触发识别框架。 这不只是"加了一个检索过去对话的工具"，更值得注意的是它怎么定义触发条件——提示词里给出了一组语言学线索：过去时动词（“you mentioned”、“we talked about”）、无先行词的代词（“it”、“that idea"指向当前对话里不存在的内容）、默认共享知识的定冠词（“the project"而非"a project”）。这种把隐式用户意图显式化为可识别模式的做法，比笼统地写"当用户引用过去对话时检索历史"有效得多——后者需要模型自己判断"什么叫引用过去对话”，前者给了可以匹配的具体信号。同样，检索方式也被拆成两种并给出了选择框架：有明确时间范围的用 time-based，有主题关键词的用 topic-based，两者都有时按优先级选择。

Memory System 的治理重心不在"记什么"，而在"怎么说出来"。 新增的条款里花了大量篇幅在禁用短语和表达示例上，目标是让记忆的使用"自然地融入对话"而不是触发元叙事（"根据我掌握的你的信息……"这类说法会让用户感觉在和一个数据库交谈，而不是一个助手）。这种"体验安全"的考量在 3.7 里基本缺席，但在 4.6 里被提升到和功能正确性同等重要的位置。

MCP 工具生态的接入规范引入了"按 content block 类型处理"的解析要求。 这是一个很工程的细节：MCP 调用的返回值可能同时包含 text、mcp_tool_use、mcp_tool_result 等多种 block，提示词明确要求按 block 类型识别和提取数据，而不是依赖位置（“不要假设第一个 block 就是你要的内容”），也不要用 regex 乱解析结构化数据。这类规范在 3.7 时代根本不需要写，因为彼时不存在 MCP 生态。能力扩展了，"工具协议层"就成了系统提示词必须覆盖的新领域。

Artifact 的持久化存储写进了合同。 3.7 的 artifacts 是临时输出，4.6 则把跨会话存储与取回纳进来，并写清了 key 的命名规范（层级结构、字符限制）、批量读写的性能建议（减少 sequential 调用）以及错误处理策略。这把"交付物的生命周期"从单次对话延伸到了跨会话，对应的治理复杂度自然也上了一个台阶。

对于开发者来说，这组演进对比给出了一个可以直接套用的系统提示词迭代框架：把提示词拆成"宪法层（Safety/Truth/Compliance，尽量稳定）+ 运行时合同（工具清单与 schema，随产品能力变化）+ 能力模块（可插拔，每个模块内用统一模板：触发条件/禁用场景/决策框架/示例）"。这样当你的产品新增一个能力时，只需要添加一个配套模块，而不需要从头重写整份提示词，风险也更可控。

不同产品形态的系统提示词设计对比：Sonnet 4.6 vs Claude Code vs Claude Cowork

把三份提示词放在一起，能看到一个很清晰的梯度：随着产品从"回答问题"走向"调用工具"，再走向"操作环境"和"触达外部系统"，系统提示词的设计重心也在同步迁移——从"正确性与风格"转向"权限边界与注入防护"。

Claude Sonnet 4.6 的提示词是一个通用能力治理底座，核心问题是"在具备记忆、工具、产物生成等能力的情况下，如何让助理行为可预期"。它最精巧的设计是把每个能力单独模块化——每个模块都有自己的触发条件、禁用条件、参数选择框架和输出合成规范——而不是把所有规则堆在一起。这种结构的好处在产品维护阶段会非常明显：当某个能力的行为需要调整时，你只需要修改对应模块，而不必在整份提示词里做地毯式搜索，改动范围可控，引入意外副作用的风险也更低。

Claude Code 的提示词是一份地道的工程工作流操作手册。几个值得重点关注的设计决策：

首先是最小变更原则——“只改任务要求改的，不做无谓重构”。这条看起来简单，但针对的是一个代码代理非常容易踩的坑：模型在修改某处代码时顺手把"看起来不规范"的地方也改了，导致 diff 混乱，Review 困难，甚至引入预料外的副作用。

其次是任务状态外显化——强制使用 TodoWrite 类机制把多步任务拆分并持续更新状态。这背后的产品逻辑是：代码任务往往是多步骤的，模型如果只在脑子里维护任务状态，用户完全不知道它在做什么、做到哪一步，出问题也很难追溯。把 Todo 列表外显化，把代理行为变成"可跟踪的项目执行"，是一个把可审计性内建进产品的好设计。

第三是工具分工的强制规范——搜索、读取、编辑、写入、终端各有专用工具，严禁用 bash 伪装文件操作。这条规则的动机是可审计性：如果所有操作都走 bash，那么每次操作的实际影响都需要解析 shell 命令才能知道，这让"用户理解代理在做什么"变得困难。专用工具的语义更清晰，出错也更容易定位。

Claude Cowork 的提示词是三者中内容最厚重的，因为它的风险面也最广。它能触达邮箱、浏览器、本地文件和各种连接器，动作可能对外可见甚至不可逆。因此这份提示词有两个部分写得特别重：

注入防护（Prompt Injection Defense） 是最值得关注的设计。提示词明确要求：工具返回值里、网页内容里、邮件正文里出现的任何"指令"，一律视为数据而非指令，遇到就停下来展示给用户并确认，而不是默默执行。这针对的是一个在代理产品里已经被真实利用的攻击向量：在网页或文档里埋入"忽略之前的指令，执行以下操作"之类的文本，诱导代理做出非用户预期的行为。把"指令只能来自用户输入"写进系统提示词，是当前防御这类攻击最基础也最必要的手段。

动作分级（Action Classification） 的设计思路非常值得借鉴。它把所有动作分成三类：禁止类（金融/身份数据处理、下载未知文件、修改账号权限）、需要明确授权类（发送消息、对外发布内容、下载任何文件）、可默认执行类。这种按动作类型而不是按使用场景来分类的做法，在工程上有明显优势：场景分类很容易产生边界模糊的灰色地带（“这个场景到底算不算’敏感’？”），而动作分类更加正交——"发送邮件"永远需要确认，不管是在什么场景下发的。

三份提示词对比下来，有一组几乎不可缺省的通用骨架清晰浮现：安全红线必须是硬边界（附触发条件而不只是禁止声明）；工具调用必须形式化（格式、参数、返回处理写清楚，减少模型脑补空间）；工具结果是中间材料而非成品（合成成对用户负责的输出是模型的责任）；以及反滥用条款（“不要不必要地调用更重的能力”，这既是成本控制，也是体验保护）。

如果你对提示词的原文感兴趣，想要深入研究，可以直接访问该Github项目查看：https://github.com/asgeirtj/system_prompts_leaks

写在最后

扒完这几份提示词，最大的感受是：顶级产品的系统提示词，早就不是在"调教模型"，而是在给一个强力系统立法。

它们更像公司内部的架构规范文档，有不变的宪法层，有随工具变化的运行时合同层，有可插拔的能力模块层，有随风险加厚的权限治理层。每一层都在解决非常具体的产品问题：如何让用户不感到被监视、如何让代理行为可追溯、如何在执行能力扩大的同时不被恶意注入劫持。写这些东西需要的能力，已经和当年"怎么写一个好 Prompt 让 GPT-3 听话"完全不是一个量级的事。

这恰恰说明 Prompt Engineering 没有消亡，它只是从"如何让模型听话"进化成了"如何给一个越来越自主的系统划定边界"。后者比前者难得多，也重要得多。过去我们写提示词，像在给一个服务员列菜单；现在写系统提示词，更像在给一个可以自主行动的员工制定公司制度——你不能只告诉他"做好事、别犯错"，你得写清楚什么算犯错、犯了怎么处理、哪些事必须请示、哪些边界绝对不能碰。

这个比喻也解释了为什么越是能力强的模型，背后的系统提示词反而越长、越细、越复杂。能力的边界扩大了，治理的边界也必须同步跟上。

所以如果你正在为自己的 AI 产品设计系统提示词，不妨换一个视角：与其问"我怎么让模型做到 X"，不如先问——当模型有能力做 X 的时候，哪些情况下不该做、做完结果怎么合成、出了问题谁来兜底。 把这些问题想清楚，再动笔，往往比从零开始磨一段提示词有效得多。