大模型的Prompt-Tuning学习笔记

路小雨~

759人浏览 · 2026-04-02 09:56:54

路小雨~ · 2026-04-02 09:56:54 发布

大模型的Prompt-Tuning是一种新兴的参数高效微调范式，通过向预训练模型输入添加可训练的软提示（continuous prompt）来适配下游任务，而无需更新模型主体参数。相比传统的全量微调，Prompt-Tuning可极大减少每个任务所需的训练参数与显存，同时便于多任务共享同一模型。在大规模模型上，Prompt-Tuning已被证明性能接近甚至可替代全量微调。本文全面综述了Prompt-Tuning及其变种（如Prefix-Tuning、P-Tuning、P-Tuning v2、Prompt-Ensemble等）与其他微调技术（Adapter、LoRA、Prefix-Tuning、Prompt Engineering等）的区别与优势，分析其理论基础（目标函数、参数化方式、梯度流动及表示影响），详细讨论Prompt-Tuning的算法细节和模型适配（BERT、GPT、T5等）方法。我们进一步给出实际训练技巧（数据处理、标签格式、超参、冻结策略等）、代码实现示例（基于PyTorch+Transformers+PEFT），并列出针对分类、生成、问答、指令跟随等任务的实验设计方案及对比结果。最后，讨论了Prompt-Tuning在工程化应用中的推理效率、量化蒸馏策略，以及可能带来的安全、偏见与鲁棒性问题，并展望该领域的未来研究方向。文中引用了大量原始论文与开源实现，并附上关键参考文献与源码链接，供研究生和工程师参考。

1 定义与背景

Prompt-Tuning起源于大规模语言模型（LLM）的提示学习（Prompting）思路。2020年GPT-3提出通过自然语言提示（hard prompt）实现Few-shot/Zero-shot学习，极大提升了模型在下游任务的能力。随后人们发现，手工设计的离散提示往往不稳定且难以优化，并且对于规模较小的模型性能较差。为此，研究者引入了软提示（Soft Prompt，即连续向量提示）概念，将提示词汇表示成可训练的向量，使其在训练时通过梯度进行优化，而保持预训练模型参数冻结。这种方式称为Prompt-Tuning（或Prompt-Based Fine-tuning）。它的核心思想是将下游任务的输出目标通过“模板+填空（Template+Verbalizer）”映射到预训练任务（如语言模型）的空间，从而缩小预训练目标与微调目标之间的差距。

在Prompt-Tuning中，离散提示是固定不参与训练的；而连续提示则是与输入文本共同作为“虚拟令牌（virtual tokens）”送入模型的附加嵌入，可进行训练更新。例如，在BERT上做情感分类时，可将原句拼接一个模板如“It was [MASK].”并添加一些可训练的嵌入向量，模型学习预测Mask位置上的词对应标签；在GPT-类模型上，则可将可训练的前缀向量作为初始上下文，并生成后续文本。Prompt-Tuning只需微调提示嵌入（或前缀参数），极大地降低了每个任务的训练开销和存储开销。

![prompt tuning与全量微调流程示意图]（本图示意了全模型微调与Prompt-Tuning的区别：Prompt-Tuning只为输入添加可训练的提示向量，模型主体保持冻结。）

2 与其他微调方法对比

Prompt-Tuning属于参数高效微调（Parameter-Efficient Fine-Tuning, PEFT）方法之一。与之对比，全量微调（Full Fine-Tuning）需调整预训练模型所有参数，训练时需保存全部梯度，存储与计算代价高且难以多任务共享。相比之下，各种PEFT方法仅添加极少数可训练参数：

Adapter（Houlsby et al. 2019）在Transformer层插入瓶颈式网络，只训练新加层，冻结原模型权重。在GLUE任务中，Adapter方法只增加约3%参数就几乎能达到全量微调性能。
LoRA（Hu et al. 2021）将权重更新矩阵分解为低秩矩阵并只训练它们，保持模型权重冻结。例如对GPT-3 175B模型微调，LoRA只需训练量级千分之几的参数，并显著降低内存消耗。LoRA不改变推理结构，因此几乎无额外推理延迟。
Prefix-Tuning（Li & Liang 2021）在每层Transformer前加入可训练的键/值前缀向量（相当于可训练的软令牌），总参数仅约0.1%。在文本生成任务上（如GPT-2摘要、BART生成），Prefix-Tuning在全量数据下取得了可比性能，并在低资源下超越了全量微调。
Prompt-Tuning（Lester et al. 2021）直接向输入嵌入前添加可训练的软提示令牌（soft prompt），不修改其他层参数。研究发现，当模型规模达到十亿参数以上时，Prompt-Tuning性能接近全微调；但在较小模型上存在差距。Prompt-Tuning将传统的手工Prompt工程自动化，使Prompt模式在大模型上“与微调性能持平”。
**Hard Prompt（Prompt Engineering）**是传统的人工设计离散提示，不涉及模型训练。它灵活可控，但需要人工经验且效果往往不稳定。Prompt-Tuning则使用可训练提示自动学习更优模板。

下表对比了各类方法的特点：

方法	微调参数量	可训练位置	主要优势	主要劣势
全量微调	100%	所有层	性能最好；无需设计额外结构；通用性强	参数多、存储成本高；训练与推理开销大
Adapter	~3%	每层中间插入小网络	参数高效；可多任务共享；适用于NLP多种任务	增加模型深度，推理延迟略增；训练复杂度稍增
LoRA	<0.1%-1%	各层权重矩阵低秩分解参数	训练与存储大幅减少；不增加推理延迟；适用于超大模型	需要手工设置秩超参；对低资源和分类任务提升有限
Prefix-Tuning	~0.1%	各层前缀键/值向量（soft prefix）	对生成任务友好；推理时只添前缀，适合少样本；示例多任务优	需要设计前缀长度；对小模型效果有限；优化稳定性问题
Prompt-Tuning	0.1%-3%	输入嵌入前添加可训练令牌	参数极少；可复用冻结模型；在大模型上与微调接近	对小模型收敛困难；对复杂任务敏感LR和初始化
Hard Prompt（提示工程）	0%（无训练）	自然语言提示	无需训练成本；灵活可解释	效果依赖人工设计；不稳定；一般不及微调和软提示

3 理论基础

Prompt-Tuning的优化目标与传统微调一致，通常以交叉熵等任务损失函数为目标，只不过仅更新提示参数。对于分类任务，有两种常用方案：一种是仍采用语言模型头（如[BERT-Mask]机制）的形式，让模型预测Mask位置并映射到标签词，再通过词映射（verbalizer）解码标签；另一种是直接在模型输出层添加分类器头，如P-Tuning v2所采用的简单线性层，省去Mask与词映射。无论哪种方法，梯度通过提示向量传回来，促使提示向量学习如何引导模型生成正确预测。

参数化方面，软提示通常与词嵌入维度相同，可以任意初始化（随机或基于某些真实词向量），并通过梯度下降进行优化。Prefix-Tuning和P-Tuning v2将提示设为每层的键值对，引入了一个小型重参数化模块（MLP）来生成这些前缀，以提高训练稳定性。从核方法的角度分析，有工作将前缀看作诱导变量（inducing variables），与Adapter类似，通过残差结构改进收敛。在表示学习层面，提示向量为输入提供了额外的可训练上下文信息，使模型能够在高维连续空间中寻找任务相关的模式。与离散提示相比，软提示不受词汇表限制，更灵活地编码任务信息。

4 主要方法分类与算法细节

Prompt-Tuning方法众多，大体可分为硬提示（Hard Prompt）和软提示（Soft Prompt）两类，以及它们的各种变种：

硬提示（Hard Prompt）：使用自然语言短语或句式作为模板。例如GPT-3的few-shot示例。优点是直观易懂，不增加参数；缺点是性能往往不稳定且效果有限。对于多分类任务，还需要设计“标签词映射”（Verbalizer）将Mask预测的词映射为标签。
软提示（Soft Prompt / Continuous Prompt）：使用可训练的向量序列代替或补充文本提示。这些虚拟令牌（Virtual Tokens）没有对应的自然语言词义，直接作为输入嵌入的一部分。软提示可学习性强，但可解释性弱。

常见的软提示方法包括：

Prompt Tuning（Lester et al. 2021）：在模型输入处添加一串可训练的软提示令牌，将它们与原始输入拼接后送入预训练模型，只训练提示向量。实验表明，当模型规模超过数十亿时，Prompt Tuning的性能可以逼近全量微调。但是，在较小模型上，Prompt Tuning训练容易陷入局部最优，依赖精细的超参数选取。
P-Tuning（Xiao Liu et al. 2021，《GPT Understands, Too》）：在软提示的基础上引入提示编码器，即将离散模板与连续向量结合。具体做法是将可训练的软提示插入离散提示或输入序列的任意位置，并使用LSTM或MLP为这些向量建模，使其更好地捕捉连续提示之间的依赖关系。P-Tuning显著提高了训练稳定性和性能，在超哥大型NLU任务（如LAMA、SuperGLUE）上优于纯手工提示。
P-Tuning v2（Liu et al. 2022，《Prompt Tuning Can Be Comparable…》）：提出深度提示，即在预训练模型的每一层都插入可训练提示（等同于Prefix-Tuning方案）。P-Tuning v2摒弃了原始的Mask头，直接在最后使用分类层。实验证明，这种跨层提示能够使Prompt-Tuning在模型规模从3亿到100亿参数上都达到与全微调相当的性能。例如，在SuperGLUE基准下，P-Tuning v2在小至10亿参数的模型上已经完全匹配Fine-Tuning。
Prefix-Tuning（Li & Liang 2021）：在Transformer每层的注意力模块前插入可训练的键/值向量（即前缀），这些前缀由一个较小的矩阵通过MLP生成。和Prompt Tuning不同，Prefix-Tuning在输入层之外还影响中间层，使其在生成任务（如文本摘要）中表现优异。需要注意的是，直接优化所有层的前缀会带来训练不稳定性，因此论文中采用了重参数化（小MLP映射）和逐层训练策略以稳定收敛。
Prompt-Ensemble / 多Prompt方法：为了克服单一提示的方差，Lester等人提出“Prompt Ensembling”，即对多个经过训练的提示结果取平均，提高鲁棒性。后续还有Mixture-of-Prompts（Choi et al. 2023等）通过门控机制动态选择最优提示组合，以及多任务Prompt（MPT）方法共享提示并复用多个任务信息。
指令微调（Instruction Tuning）：将提示理念扩展到大规模指令数据集上，例如Flan、InstructGPT模型的训练。此时的“提示”是用户/系统指令，模型在训练时学习遵循指令生成结果。虽然Instruction Tuning常结合监督和RLHF优化，但本质上也是Prompt方法的一种，将通用任务转化为对齐语言模型训练目标的方法。

（Hugging Face文档）对软、硬提示做了分类说明：硬提示由人工文本组成，要求高创造力；软提示则由连续可训练向量组成，不受词表约束。总之，各种Prompt-Tuning方法的核心是冻结预训练模型，调整少量新参数来适配任务，体现了高度的参数共享与复用。

5 模型与架构适配

Prompt-Tuning可适用于不同Transformer架构，但其实现细节会因模型类型而异：

Encoder-Only（如BERT、RoBERTa、DeBERTa等）：常用于分类、序列标注等任务。在这类模型上，一种做法是在输入序列前添加[CLS]标记后面的可训练提示，并在最后使用[CLS]对应的输出或额外的线性分类头进行预测。例如BERT情感分类可构造输入[CLS] {text} [SEP]，并在[CLS]向量后训练输出层；或使用填空形式"{text} It was [MASK]."并训练Mask头。Prompt-Tuning中，连续提示向量可置于输入起始（类似首部软令牌），并随文本一起参与编码。对于NER等标注任务，可将Prompt放在每个实体位置附近或者整体附加于开头。总体而言，Encoder模型对提示输入的支持较为直观：只需调整输入嵌入层及后续分类层即可。
Decoder-Only（如GPT系列）：主要用于生成任务。由于此类模型以自回归方式生成文本，Prompt通常以上下文的形式提供。具体操作是在输入序列前端添加软提示（在词表中没有对应词的连续向量），然后接上任务描述和上下文。例如对GPT-2进行表格摘要，可以将训练的soft prompt置于输入序列之前，让模型学习从这些提示中“提示”所需信息。与Encoder模型不同，Decoder模型通常无需Mask头，训练目标就是语言模型下一个词预测。Prefix-Tuning就是在所有层都插入前缀KV对，相当于在每层引入了对话历史或任务描述的信息。
Encoder-Decoder（如T5、BART）：T5等Seq2Seq模型将Prompt可看作输入的一部分。比如在文本摘要上，可以给编码器输入添加提示前缀，并保持解码器进行生成；在翻译或QA任务上，同样在encoder部分前置软提示或自然语言指令。也可直接在任务指令里加入提示，例如T5式输入"翻译：{文本}"，结合软提示优化。对于这类模型，Prompt-Tuning在训练时通常冻结整套Encoder-Decoder结构，只更新提示向量和可能的任务头（分类层或解码器初始状态）。

不同架构的适配通常还需要考虑标签格式与任务映射：例如对于分类任务，Encoder系可直接预测分类标签；而Decoder系模型可将分类转为生成（如生成“positive/negative”词汇）。P-Tuning v2提出直接用线性层输出分类结果，无需语言模型头。总之，Prompt-Tuning方法的核心是不改变Transformer结构，只改变输入或各层的前缀信息，以此最大程度复用预训练知识。

6 训练细节

在实施Prompt-Tuning时，训练数据的准备与传统微调类似：保持原文本和标签，只是在输入前拼接模板。常见步骤包括：

模板构造与标签映射：对分类任务，若使用语言模型头，就需要在输入中构造Mask或特殊位置来输出标签词，并使用Verbalizer映射；若使用线性层，则可省略Mask，直接用标准文本输入并监督分类器。示例：情感分类可用"评论：{文本} 情感： [MASK]."的形式，然后将Mask预测词映射为情感类别。GPT类模型可用前缀提示加自然语言说明。无论如何，保持一致的标签格式（label mapping）是保证训练正确的基础。
批量大小与梯度累积：Prompt参数通常很小，故模型主体占用的显存已经固定。可以根据GPU内存设置合适的batch size，常见为8~32。如数据量很大，可使用梯度累积（gradient accumulation）来模拟更大batch。
学习率与优化器：Prompt-Tuning对学习率极为敏感。一般情况下学习率需要比全微调高得多。例如Hugging Face示例中，对bloomz-560M模型进行了学习率0.03的大步长训练。又如IBM官方建议，若使用flan-t5-xl-3b，学习率可设置为0.3；LLAMA-2则仅用0.002。这些值可作为参考，但实际需根据模型和任务调整。通常应在1e-5至1e-1范围内尝试，并配合AdamW优化器和小的weight decay。Warmup策略（线性上升）通常也有帮助，如1万步或总步数的10%用于预热。
提示长度和初始化：提示令牌数量（prompt length）是关键超参。《Prompt Tuning Survey》指出：简单分类任务可用较短提示，而序列标注等复杂任务则需要更长的软提示。常见范围为20~100个令牌。提示初始化方式也影响收敛，可随机初始化，或用自然语言词嵌入初始化（如”<extra_id_0>“等占位符）。建议多尝试不同初始化并对训练稳定性进行监测。
冻结策略：Prompt-Tuning通常完全冻结基础模型，仅更新提示参数。可以考虑冻结部分层、微调顶部几层等方式与软提示结合，但这已经脱离纯Prompt-Tuning范式，此处不深入。使用混合精度（FP16）训练可节省显存；若模型本身较大且仅更新少量参数，可使用梯度检查点技术或分布式训练（如accelerate launch）进一步提升效率。
正则化：由于更新参数少，Prompt-Tuning过拟合的风险相对较低。但在极低数据场景仍可能过拟合，常用做法是增加Dropout或早停法。超参数调节时，可观测验证集损失以避免过度训练。
训练时序：一般将提示参数与损失一起优化，直到验证集收敛或过拟合。提示向量通常很快收敛，但如观察到性能震荡，可尝试减小学习率、增大warmup步数，或使用学习率衰减策略（cosine or linear）。训练完成后，只需保存提示参数及可能的头部参数即可；下次预测时将它们加载到相同模型结构中即可复现。

7 实现与代码示例

在实际工程中，常使用PyTorch与Hugging Face Transformers工具包结合PEFT库来实现Prompt-Tuning。以下示例展示了如何使用transformers和peft进行Prompt-Tuning（以GPT式生成任务为例）：

# 安装依赖（例如 transformers 4.30+, peft 0.4+, torch 2.0+）
!pip install transformers==4.30.2 peft==0.4.0 torch==2.0.1

from transformers import AutoModelForCausalLM, AutoTokenizer
from peft import PromptTuningConfig, get_peft_model, TaskType

# 选择预训练模型，如中文/英文GPT模型
model_name = "bigscience/bloomz-560m"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name)

# 定义PromptTuning配置：任务类型为生成（CAUSAL_LM），指定提示初始化方式和长度
peft_config = PromptTuningConfig(
    task_type=TaskType.CAUSAL_LM,
    prompt_tuning_init="TEXT",          # 初始提示为文本模式，可填充默认指令
    num_virtual_tokens=20,             # 软提示令牌数量
    tokenizer_name_or_path=model_name
)
# 应用PEFT，将模型包装为仅训练提示的版本
model = get_peft_model(model, peft_config)

# 示例：准备数据集（此处假设已加载一个文本-标签对的数据集）
texts = ["今天天气不错。","我很喜欢这部电影。"]  # 示例输入文本
inputs = tokenizer(texts, padding=True, truncation=True, return_tensors="pt")

# 训练准备：定义优化器和训练循环（省略细节，可使用Trainer）
optimizer = torch.optim.AdamW(model.parameters(), lr=3e-2)
model.train()
for epoch in range(10):
    optimizer.zero_grad()
    outputs = model(**inputs, labels=inputs["input_ids"])
    loss = outputs.loss
    loss.backward()
    optimizer.step()

如上代码所示，核心步骤为：加载基础模型并冻结（get_peft_model后仅提示参数可训练），配置PromptTuning参数，然后按常规模型训练流程优化提示。类似地，Prefix-Tuning可通过PrefixTuningConfig实现；Adapter、LoRA等PEFT方法也均提供对应配置类。对于序列分类任务，只需将模型改为AutoModelForSequenceClassification并相应修改task_type即可。

命令行示例：使用Hugging Face的Accelerate可简化多GPU训练：

accelerate launch run_prompt_tuning.py --model_name bigscience/bloomz-560m \
  --train_file train.json --learning_rate 0.03 --num_epochs 20

在代码或表格中务必注明依赖版本，例如transformers==4.30.2、peft==0.4.0、torch==2.0.1。官方PEFT文档提供了更多示例和配置说明。此外，诸如Prompt-Tuning官方代码和Prefix-Tuning代码可供参考。

8 评估与基准

评估Prompt-Tuning方法通常选取多种任务类型进行对比实验，并使用任务标准指标。以下是常见任务与指标：

分类任务：常用GLUE/SuperGLUE（例如SST-2、MRPC、QNLI、RTE、BoolQ等）或中文分类数据集。指标为准确率（Accuracy）、F1等。Prompt-Tuning在超大模型（如T5-11B、GPT-3级别）上可达到或逼近全微调成绩。在实验对比中，一般将Prompt-Tuning、Adapter、LoRA与全微调进行比较。例如在SuperGLUE基准上，Lester等展示Prompt-Tuning随着模型规模增大而性能提升。近期工作P-Tuning v2在多个分类任务上与全微调表现持平，甚至在小规模任务RTE上超过全微调。
序列标注任务：如命名实体识别（CoNLL-03）、语义角色标注（CoNLL-05）等。评价指标通常是实体/角色的整体F1。表中列出了在BERT/RoBERTa等模型上，Prompt-Tuning仅略低于全微调的结果。例如在CoNLL-03上，RoBERTa-large全微调F1≈92.6%，而P-Tuning v2达到≈92.8%；DeBERTa-xlarge全微调93.1%，P-Tuning v2亦为93.1%。
问答任务：常用SQuAD（1.1/2.0）等数据集。指标是EM（精确匹配）和F1。在这些任务中，Prompt-Tuning传统方法表现不佳（如表中原P-Tuning EM极低）；而深度Prompt（P-Tuning v2）通过序列标注或分类头形式训练后，能够显著提升绩效。尽管全微调在QA上仍稍占优势，但一些实验表明可通过Prompt ensemble或多任务训练缩小差距。
生成任务：包括文本摘要（CNN/DailyMail）、对话生成、翻译等。使用BLEU、ROUGE、ROUGE-L等指标评估内容质量。Li等的Prefix-Tuning论文在表格摘要和新闻摘要上实验，发现Prefix-Tuning在全数据下生成质量可与全微调匹配。Prompt-Tuning在生成任务上还在早期探索阶段，已有工作表明软提示也能学到好的生成行为，尤其是在多样本充足的情况下。
指令跟随任务：如使用Flan/Alpaca指令集评估模型按照指令生成的能力。评价可以使用人类评估或自动的任务特定指标（例如问答的QA-score）。虽然大多数公开研究集中于分类和生成任务，但随着公开指令调优数据集增多，Prompt-Tuning在指令微调中的效果正在成为关注热点。

实验设计时，应与全微调或其他PEFT方法做对比实验。以下示例表格列出了5个具代表性的可复现实验设计：

实验编号	任务类型	数据集	模型	提示长度等超参（示例）	预期结果（与全微调对比）
1	文本分类（情感）	SST-2	BERT-base	软提示20个令牌，LR=3e-3，BS=32	准确率≈85%，略低于全微调(≈92%)
2	文本分类（多类）	AGNews	RoBERTa-large	软提示30令牌，LR=1e-4，BS=16	可能与全微调性能接近（≈88%）
3	问答（抽取式）	SQuAD v1.1	RoBERTa-large	软提示50令牌，LR=5e-4，BS=16	F1≈88%（全微调F1≈90%）
4	文本生成（摘要）	CNN/DailyMail	BART-large	前缀长度50层（Prefix-Tuning），LR=1e-4	ROUGE-L≈40（与全微调相当）
5	指令跟随（翻译）	翻译指令数据集	T5-Base	软提示10令牌+指令模板，LR=1e-3	可输出合理翻译，需与强基线比较

上述实验仅为示例，实际可根据具体情况调整模型规模与超参数。一般来说，模型越大Prompt-Tuning越有效；提示越长可提升性能但增加计算开销；学习率需通过验证集调优。所有实验应报告任务指标并与全量微调、Adapter、LoRA等方法进行对比。

9 调参技巧与常见问题

Prompt-Tuning实用过程中常见注意点包括：

收敛与超参：Prompt-Tuning对学习率、初始化等超参极其敏感。通常要较细粒度地调整学习率，多尝试在1e-5~1e-2范围。建议先使用较小模型和少量数据调试超参，再应用到大模型。提示向量初始化为自然语言词或特定字符（如<extra_id_0>）有时能加速收敛。多进行不同随机种子的重复实验可以估计结果方差。
过拟合与正则化：软提示参数较少，通常不容易过拟合。但在训练数据极少时还是可能过度拟合特定prompt模式。可以采用早停、增大Dropout或数据增强（如反向翻译数据）来缓解。在多任务情境下共享提示可增强泛化。
提示长度：提示长度过短可能无法提供足够的任务信息，过长则增加计算量且边际收益递减。可在实验时尝试多种长度，并观察验证集性能变化。
多任务共享：提示可设计为共享加特定结构，例如基础提示共享通用知识，然后通过小的任务特定提示调整。多任务提示（Multi-task Prompting）和注意力混合（Mixture-of-Prompts）是当前研究方向。在实践中，一组提示常用于一个任务，多个任务间宜独立提示或通过参数分解共享提示。
显存与速度：Prompt-Tuning极大节省了训练显存（只需存梯度给提示向量），但推理时每个输入需拼接提示，计算复杂度略增。对于Transformer，其复杂度主要在注意力机制，额外令牌对整体耗时影响较小。若模型很大，可考虑GPU加速和混合精度（FP16）训练。训练速度通常远快于全微调，因为要更新的参数太少。
报错与技巧：在早期尝试中，常见问题包括训练不收敛（尝试降低LR或加大warmup）、验证性能波动大（检查标签映射是否正确）、以及提示未生效（可查看提示梯度是否有更新）。工具上可使用梯度直方图观察提示参数变化。不断对比与全微调和其他PEFT结果，可帮助诊断是否为实现细节问题。

10 工程化与部署

Prompt-Tuning在工程化应用中具有优势：推理效率高和模型复用方便。由于核心模型权重不变，部署时只需加载基础模型加上任务特定提示即可。与Adapter/LoRA类似，不同任务可以复用同一模型实例，仅加载各自提示；这在多租户场景非常高效。部署策略包括将提示参数作为模型的可选附件存储，或将提示融合进模型（例如合并到Embedding中）以减少I/O。

推理效率：Prompt或Prefix作为输入一部分，Transformer会将其视为额外的上下文令牌。尽管会稍微增加计算量，但远低于模型增大带来的开销。Prefix-Tuning在训练后可丢弃生成前缀的MLP，只保留前缀向量，因此推理仅有少量额外矩阵乘法。与全模型微调相比，这些方法几乎没有新增延迟。
量化与蒸馏：Prompt-Tuning本身与模型权重分离，可配合模型量化一起使用。常见做法是先对基础模型做INT8/4量化（如QLoRA），再应用LoRA或Prompt微调，已在社区和研究中得到验证。至于蒸馏，一种思路是将Prompt-Tuning后的大模型知识蒸馏到小模型或小prompt中，例如知识蒸馏（Knowledge Distillation）技术，可以使用大模型输出指导小模型学习，同样也可让大模型教小模型如何使用提示。虽然目前这方面研究较少，但它是压缩模型与提示的可行途径。
在线更新与版本管理：工程环境中，可以将提示参数与基础模型权重分版本管理。添加新的任务时仅需训练并发布新的提示文件。对于微调过程，可使用实验追踪工具（如MLflow、Weights & Biases）记录不同Prompt配置的效果。在线服务时，可以动态加载不同提示来响应不同任务。
安全与监控：在生产环境中，应对用户输入的Prompt进行校验，以防注入恶意提示。此外，可以在模型服务链路上加入监控器，检测生成输出的异常行为（如不恰当内容、逻辑错误）。尽管这超出了Prompt算法本身，还是推广Prompt-Tuning到生产所需考虑的重要因素。

总之，Prompt-Tuning使大模型在部署时可共享一套主体，只对少量参数进行调整，极大提升了多任务扩展能力。同时，它与当下流行的量化（如QLoRA）、蒸馏等技术并不冲突，能够组合使用以进一步优化效率和成本。

11 安全、偏见与鲁棒性

Prompt-Tuning和Prompt Engineering一样需要关注安全和偏见问题：

偏见与有害输出：因为Prompt本质是对模型指令输入，恶意或不当设计的提示可能诱导模型输出有害、偏见内容。Prompt tuning自动学习的提示虽然难以直观审查，但如果训练数据中存在偏见，提示可能无意中将其固化或放大。因此在设计提示时应审慎选择训练数据，并可添加过滤策略来规避不当输出。相关研究表明，Prompt对小范围扰动非常敏感，这意味着提示中的微小词汇变化可能引起模型输出大幅改变，从而可能导致安全隐患。
鲁棒性：PromptRobust等工作发现，LLM对对抗性提示（对原提示做细微修改）并不稳健。也就是说，攻击者如果能修改提示中的少量字符或词语，就可能误导模型给出错误或危险的结果。因此，在关键应用场景下，应评估和强化模型对提示扰动的鲁棒性。例如，可以对提示进行自动化的对抗测试，或采用提示集成（ensemble）来提升鲁棒性。
检测与防护：提示学习的安全可结合已有的LLM安全对策。如在部署时加入内容审查模块，检测模型生成的输出是否符合安全准则。也可限制提示中的敏感词或格式，避免未经审核的输入干扰模型推理。虽然目前关于Prompt-Tuning安全性的专门研究较少，但一般认为Prompt与传统Prompt Engineering面临类似风险。
隐私考虑：由于基础模型参数未更新，Prompt-Tuning理论上泄露信息的风险主要来自微调数据。使用Prompt-Tuning进行个性化微调时，也需遵守数据使用规范与隐私保护，比如可以采用联邦学习的方式来保护敏感数据。

总之，Prompt-Tuning带来的安全风险与任何允许用户输入模型提示的系统类似。开发时需融合模型安全和监控策略，定期评估提示敏感性，确保输出满足伦理规范。

12 未来方向与研究热点

Prompt-Tuning正处于快速发展阶段，未来研究方向主要包括以下几点：

优化稳定性：研究更鲁棒的优化算法与自适应学习策略，以减小对超参数的依赖。例如探索自适应提示设计、动态学习率或二阶优化方法，提升收敛速度。
多任务与迁移学习：将Prompt-Tuning与元学习相结合，设计可跨任务迁移的提示体系。例如层次化提示设计、公共提示+任务专用提示的混合结构，以应对不同任务标签空间和数据分布。此外，研究如何从一个任务的提示迁移到另一个任务，使提示具有更好的通用性和可扩展性。
可解释性与分析：深入理解提示向量学习的机制，包括分析其优化路径和表示空间，与模型内部表示的关系等。开发可视化方法或打分指标来解释提示的作用，增强Prompt方法的透明度。
动态与混合提示：探索让提示随输入动态生成或更新的方法。例如条件提示（根据输入特征生成不同提示）、混合专家提示（Mixture-of-Prompts）等，以提高模型的灵活性和性能。同时，可研究更轻量级的提示表示，如可解码的提示（Compositional Prompting）和提示压缩技术。
更广泛的应用场景：Prompt-Tuning可拓展到多模态输入、多输出预测等新场景。例如图像-文本联合提示、对话和交互式任务提示等。也可将提示概念应用于模型压缩、自动提示生成等领域。
与新兴架构结合：适应未来更大规模和新颖结构的预训练模型，如带记忆的Transformer、长序列模型等，设计相应的提示机制；同时结合强化学习、人类反馈等机制（如RLHF）进一步优化提示，使模型更好地服从指令和人类意图。