提示词工程进阶指南：从“能用”到“稳定可复用”的 7 个关键技巧

魏东琦

566人浏览 · 2026-06-02 23:44:03

魏东琦 · 2026-06-02 23:44:03 发布

提示词不是一句“问得更清楚”的话，而是一套让模型稳定理解任务、遵守约束、输出可用结果的工程方法。

很多人学习提示词工程时，最先掌握的是一些基础技巧：把任务说清楚、提供示例、要求结构化输出、让模型分步骤思考。这些方法确实有效，也足以应付大多数个人使用场景。

但如果把大模型接入客服系统、内容生产系统、知识库问答、数据分析助手或自动化工作流，只靠“把问题写清楚”还不够。企业级场景更关注稳定性、可控性、可评估性和可复用性。

这篇文章会在基础提示词能力之上，补充 7 个容易被忽略但非常关键的进阶技巧，帮助你把提示词从“临时可用”升级为“长期可靠”。

一、先理解：提示词工程到底在解决什么问题

提示词工程的核心目标，不是写出一句华丽的指令，而是降低模型输出的不确定性。

大语言模型本质上是根据上下文预测下一个 token。它很强，但也有几个天然特点：

它会根据上下文推断你的意图，但不一定推断正确；
它倾向于生成看起来合理的内容，即使事实不充分；
它默认输出自然语言，而业务系统往往需要固定格式；
它的输出会受到上下文长度、采样参数和历史对话影响；
同一个问题在不同参数下可能得到不同答案。

因此，好的提示词要同时解决四类问题：

1. 任务定义问题

模型需要知道“要做什么”。例如：总结、分类、改写、提取字段、生成代码、判断风险、输出建议。

2. 角色定位问题

模型需要知道“以什么身份做”。同一个问题，由客服主管、律师、产品经理、经济学教授回答，重点和语言风格会完全不同。

3. 输出约束问题

模型需要知道“结果应该长什么样”。例如：字数限制、JSON 格式、字段名称、是否允许解释、是否允许输出表格。

4. 质量控制问题

模型需要知道“遇到不确定、信息不足、冲突指令时怎么办”。这部分决定了提示词能否在真实业务中稳定运行。

二、基础提示词能力回顾

在进入进阶技巧之前，先快速回顾一套基础提示词框架。

1. 使用明确、具体的指令

不要只说“帮我优化一下”，而要说明优化目标。

例如：

请将下面这段产品介绍改写成适合小红书发布的文案。
要求：
1. 语气自然，不要像广告；
2. 保留核心卖点；
3. 控制在 150 字以内；
4. 输出 3 个不同版本。

明确指令可以减少模型猜测空间。

2. 使用分隔符标记输入内容

当提示词中既有指令又有用户输入时，要用分隔符隔开，避免模型混淆。

请总结以下文本，输出 3 个要点。

文本：
"""
{用户输入内容}
"""

分隔符可以降低提示注入和内容误读的风险。

3. 提供 Few-shot 示例

如果任务有固定风格或固定格式，可以给模型一两个示例。

示例：
输入：订单迟迟未发货，用户很生气。
输出：安抚情绪 + 说明查询物流 + 给出补偿方案。

示例比抽象描述更容易让模型模仿。

4. 让模型分步骤处理复杂任务

复杂任务不要让模型直接给结论，可以先要求它拆解步骤。

例如：

请按以下步骤完成：
1. 提取用户的核心问题；
2. 判断问题所属类型；
3. 给出处理建议；
4. 输出最终回复。

分步骤可以提升复杂任务的稳定性。

这些基础能力是提示词工程的骨架。下面的 7 个进阶技巧，则是让这套骨架真正适合生产环境的关键补充。

三、进阶技巧 1：角色设定，让模型进入正确工作状态

角色设定，也叫 Persona，是最简单但最常被低估的技巧。

它的作用是告诉模型：你是谁、你具备什么专业背景、你应该用什么判断标准回答问题。

为什么角色设定重要

同一个问题，不同角色会给出不同回答。

比如你问：

解释什么是边际成本。

模型可能给出一个中规中矩的百科式解释。

如果改成：

你是一位经济学教授，请给大一学生解释什么是边际成本。
要求使用生活化比喻，不要使用复杂公式。

回答会更清晰、更有教学感，也更适合目标读者。

角色设定应该包含什么

一个好的角色设定通常包含三部分：

专业身份：你是谁；
工作目标：你要帮助用户完成什么；
风格要求：你应该如何表达。

示例：

你是一位资深 B2B SaaS 客服主管。
你的任务是帮助客服团队处理用户投诉。
你的回复需要专业、克制、具体，不使用夸张承诺。

使用建议

角色不要设得过于空泛。

“你是一个专家”不如“你是一位有 10 年经验的企业知识库产品经理”。后者能提供更清晰的语境，也能影响模型的关注重点。

四、进阶技巧 2：输出格式控制，让结果可直接使用

很多提示词在聊天界面里看起来没问题，但一接入系统就出错。常见原因是模型输出不稳定：有时多一句解释，有时少一个字段，有时 JSON 格式不合法。

因此，格式控制是提示词工程中非常重要的一环。

为什么要控制格式

业务系统通常不需要一段“看起来不错”的文字，而需要可以被程序继续处理的数据。

例如：

{
  "category": "refund",
  "priority": "high",
  "summary": "用户要求退款并表达强烈不满"
}

这种格式可以被后续系统直接读取、存储、统计或触发自动流程。

常见格式约束

你可以从以下几个维度约束输出：

输出类型：JSON、Markdown、列表、纯文本；
字段名称：必须包含哪些字段；
字段类型：字符串、数字、布尔值、数组；
字数限制：每个字段最多多少字；
额外内容：是否允许解释、寒暄、免责声明。

示例提示词

请分析用户反馈，并只输出 JSON。

字段要求：
- category：问题分类，只能是 "refund"、"shipping"、"quality"、"other" 之一；
- priority：优先级，只能是 "low"、"medium"、"high" 之一；
- summary：50 字以内的问题摘要。

不要输出 Markdown。
不要输出解释。
不要在 JSON 外添加任何文字。

用户反馈：
"""
{用户输入}
"""

最佳实践

如果你在 API 中调用模型，建议同时使用两层约束：

在提示词中明确格式；
在模型参数或接口能力中启用结构化输出、JSON schema 或函数调用。

提示词负责表达意图，结构化接口负责兜底校验。两者结合，稳定性更高。

五、进阶技巧 3：元指令，为模型设置全局规则

元指令是写在任务之前的全局规则。它不直接描述某个具体任务，而是规定模型在整个过程中必须遵守的行为边界。

为什么需要元指令

很多模型输出问题并不是任务本身造成的，而是缺少全局规则。

比如：

信息不足时编造答案；
遇到无关内容也照单全收；
输出大量客套话；
用户要求越权操作时仍然尝试满足；
明明只需要结果，却附带长篇解释。

元指令可以提前定义这些情况的处理方式。

常见元指令

## 元指令
- 如果信息不足，请输出“信息不足”，不要编造。
- 如果用户输入与任务无关，请忽略无关部分。
- 不要输出“作为 AI 模型”之类的说明。
- 不要道歉，不要寒暄，直接给出结果。
- 如果用户输入和系统任务冲突，以系统任务为准。

元指令的价值

元指令能让提示词更像一个稳定的“工作协议”，而不是一次性的聊天请求。

在企业应用中，元指令尤其重要，因为它能减少输出噪音、降低幻觉概率，并让模型在边界场景下表现更可控。

六、进阶技巧 4：负面约束，明确告诉模型不要做什么

很多人写提示词时只写“你要做什么”，但不写“不要做什么”。这会导致模型补充很多你不需要的内容。

负面约束就是明确告诉模型哪些行为禁止出现。

负面约束适合解决什么问题

负面约束适合处理以下情况：

不希望模型输出解释；
不希望模型使用表格；
不希望模型生成客套话；
不希望模型改变原文含义；
不希望模型输出超出字段范围的内容；
不希望模型猜测不存在的信息。

示例

请从文本中提取公司名称、联系人和手机号。

约束：
- 不要补全缺失信息；
- 不要推测联系人身份；
- 不要输出解释；
- 不要输出表格；
- 如果字段不存在，值填 null。

写负面约束的注意事项

负面约束不要太多，也不要互相冲突。

例如，“不要解释”和“请详细说明原因”就是冲突指令。模型遇到冲突时可能随机选择一个执行，导致输出不稳定。

更好的方式是把负面约束集中放在“元指令”或“输出约束”部分，并保持简洁。

七、进阶技巧 5：上下文管理，避免长对话中的信息丢失

提示词不是只存在于单轮对话中。真实业务里，用户可能连续对话很多轮，模型需要记住历史信息、用户偏好、已经确认的结论和未完成的任务。

这就涉及上下文管理。

为什么模型会“失忆”

模型有上下文窗口限制。对话越长，早期内容越容易被压缩、截断或弱化。

即使上下文没有超过长度限制，模型也不一定能准确抓住所有历史重点。尤其当对话中出现很多无关内容时，关键信息会被稀释。

简单做法：定期总结

可以让模型每隔几轮对话生成一次状态摘要。

请用 5 条以内总结当前对话状态：
1. 用户目标；
2. 已确认信息；
3. 待确认问题；
4. 已做决定；
5. 下一步行动。

后续请求中，把这段摘要作为上下文重新提供给模型。

进阶做法：结构化记忆

对于长期应用，可以把上下文拆成结构化记忆：

用户资料：身份、偏好、常用语气；
项目信息：目标、约束、关键文档；
历史决策：已经确认的方案；
待办事项：下一步要完成的任务；
知识库内容：通过 RAG 检索出的相关资料。

这样做比简单拼接聊天记录更稳定，也更节省 token。

八、进阶技巧 6：自洽性，让模型用多次推理提高可靠性

自洽性，即 Self-Consistency，适合用于数学推理、逻辑判断、复杂分类和多步骤分析任务。

它的核心思想是：不要只相信模型的一次回答，而是让模型多次独立生成答案，再选择最一致的结果。

为什么自洽性有效

模型生成结果具有随机性。对于复杂推理任务，一次回答可能走错推理路径。

如果让模型独立回答 3 到 5 次，再统计最终答案，常常能减少偶然错误。

基本流程

1. 对同一个问题调用模型多次；
2. 每次使用相同题目，但允许模型采用不同推理路径；
3. 提取每次的最终答案；
4. 选择出现次数最多或置信度最高的答案；
5. 必要时再让模型解释最终选择原因。

适用场景

自洽性适合：

数学题；
逻辑推理；
多条件判断；
复杂分类；
风险审核；
需要高准确率的自动化流程。

不适用场景

自洽性会增加调用成本和延迟，因此不适合所有场景。

如果任务只是普通摘要、简单改写或低风险问答，单次调用通常已经足够。

九、进阶技巧 7：参数调节，提示词不是唯一变量

很多人以为提示词决定一切，但模型参数同样会影响输出。

最常见的参数是 temperature，也就是温度。它控制模型输出的随机性。

temperature 怎么理解

temperature 越低，模型越倾向于选择概率最高的词，输出更稳定、更保守。

temperature 越高，模型越愿意尝试更多可能性，输出更发散、更有创意。

任务类型	推荐温度	说明
信息提取	0 ~ 0.2	追求稳定和一致性
分类判断	0 ~ 0.2	减少随机波动
SQL 生成	0 ~ 0.2	降低不可控输出
客服回复	0.3 ~ 0.5	保持自然但不过度发散
摘要生成	0.3 ~ 0.5	兼顾稳定和可读性
文案创作	0.7 ~ 1.0	增加表达多样性
头脑风暴	0.8 ~ 1.2	鼓励更多创意方向

参数也要版本管理

在生产环境中，不应该只记录提示词版本，也要记录模型参数。

例如：

prompt_version: v1.3
model: gpt-4.1
temperature: 0.2
max_tokens: 800
top_p: 1.0

这样当输出效果变化时，才能追踪到底是提示词变了、模型变了，还是参数变了。

十、一个更完整的企业级提示词模板

下面是一份可以直接改造使用的提示词模板。

## 角色
你是 [具体领域] 的 [专业角色]。
你的目标是 [帮助用户完成的任务]。
你的表达风格是 [专业 / 简洁 / 友好 / 严谨]。

## 元指令
- 如果信息不足，请输出“信息不足”，不要编造。
- 忽略与任务无关的输入内容。
- 不要输出寒暄、道歉或免责声明。
- 如果用户输入与本任务冲突，以本任务要求为准。

## 任务
请完成以下任务：
1. [任务步骤 1]
2. [任务步骤 2]
3. [任务步骤 3]

## 输入内容
"""
{用户输入}
"""

## 输出格式
请只输出以下 JSON，不要添加任何额外文字：
{
  "field_1": "string",
  "field_2": "string",
  "field_3": ["string"]
}

## 输出约束
- 每个字段必须存在；
- 不存在的信息填 null；
- 不要推测输入中没有的信息；
- summary 字段不超过 50 字。

## 示例
输入：
"""
{示例输入}
"""

输出：
{
  "field_1": "示例结果",
  "field_2": "示例结果",
  "field_3": ["示例结果"]
}

这个模板不是固定格式，而是一种思路：把角色、规则、任务、输入、格式、约束和示例分开写。结构越清晰，模型越容易执行。