论文学习：《Explanation as a Watermark》

qzhqbb

414人浏览 · 2026-03-21 01:37:51

qzhqbb · 2026-03-21 01:37:51 发布

Explanation as a Watermark（EaaW）论文解读

论文来源：NDSS 2025，方向是深度学习模型版权保护。
核心问题：如何在 黑盒场景 下验证一个可疑模型是否盗用了自己的模型？
传统方案缺陷：主流黑盒水印大多基于后门，会带来 有害性 和 所有权模糊性。
论文核心创新：提出 Explanation as a Watermark（EaaW），把模型的 特征归因解释结果 当成水印载体。
关键优势：
- 黑盒可验证
- 无后门、无害
- 多比特水印
- 抗伪造能力强

EaaW 不再把“是否误分类”当水印，而是把“模型为什么这样预测”的解释结果变成可提取的版权签名。

1. 论文背景

1.1 模型已经成为知识产权

训练一个高质量模型通常需要：

大量高质量数据
大量算力
长时间训练与调参
工程部署成本

因此，一个训练好的模型本身就是一种高价值资产。现实问题是：

如果别人复制、蒸馏、复用甚至偷走了你的模型，如何证明“它原本属于你”？

这就是 模型所有权验证（Model Ownership Verification） 的核心问题。

1.2 模型水印的基本思路

模型水印通常包含两个阶段：

水印嵌入
- 模型所有者在发布前，往模型中植入某种秘密模式
所有权验证
- 如果怀疑第三方模型盗用了自己的模型，就检测它是否“继承”了该秘密模式

如果可疑模型中存在与原模型一致的秘密模式，就可以作为所有权证明的一部分。

2. 现有方法

为什么基于后门的黑盒水印有根本问题

2.1 什么是基于后门的模型水印

目前主流的黑盒模型水印方法，大都借鉴 后门攻击（Backdoor Attack） 的机制。

它的基本逻辑是：

构造一组带触发器的特殊样本，称为 触发集
训练模型记住这组样本
当模型看到这些触发样本时，会输出特定错误结果
验证时，所有者秘密提交这些触发样本，如果可疑模型也出现相同异常行为，就认为它继承了原模型的水印

也就是说：

传统后门水印，本质上是“通过故意制造特殊误分类行为”来留下标记。

2.2 基于后门水印的两个致命缺陷

论文指出，后门水印有两个根本问题。

（1）有害性

后门水印会让模型对某些特殊输入出现可控误分类。

这意味着：

模型被嵌入了“恶意可触发行为”
攻击者若得到触发样本，可能把它当成真正的后门来利用
这会损害模型安全性与产品可信度

因此，这类水印并不是无害的版权标记，而是真正改变了模型行为。

（2）模糊性

传统方法常通过“是否误分类”来判断水印是否存在。

问题在于：

模型天然就会误分类一些样本
攻击者可能找到别的误分类样本来伪造“水印”
验证时很难明确证明：这到底是你原来的水印，还是模型本来就会出错

这就导致所有权归属变得模糊。

3. 根因分析

什么叫“0 比特水印本质”

这是这篇论文最重要的理论切入点之一。

3.1 传统后门水印为什么是 0 比特

传统黑盒后门水印通常只验证一件事：

对这个输入，模型有没有出现预期的错误预测？

也就是只有一个二元状态：

有 / 没有
错 / 没错
命中 / 未命中

这种水印不真正携带信息，只能表达“存在性”。

所以论文把它称为一种 0 比特水印。

3.2 0 比特本质意味着什么

“0 比特”并不是说完全没有价值，而是说：

它不携带丰富编码信息
不能唯一标识所有者
更像一个脆弱的开关信号，而不是一个真正的数字签名

因此它天然存在：

可伪造性高
归属证明弱
安全性有限

论文的核心突破就是：

不再把“预测是否错误”当水印，而是去寻找一个更丰富、且不伤害模型预测性能的载体空间。

4. EaaW 的核心思想：把“解释”变成水印

4.1 关键问题

论文提出的关键问题是：

能否在不改变模型预测结果的前提下，把水印嵌入到另一个空间里？

这个“另一个空间”就是：模型解释空间。

4.2 什么是“Explanation as a Watermark”

EaaW 的思想非常巧妙：

不改模型最终预测标签
不让模型在触发样本上故意误分类
而是控制模型对某些样本的 特征归因解释结果

换句话说，水印不再藏在“模型输出什么类别”里，而是藏在：

“模型为什么做出这个预测”这件事里。

4.3 一句话理解

EaaW = 把模型的可解释性输出，当作多比特、无害、黑盒可提取的版权签名。

5. 先讲清楚：什么是特征归因（Feature Attribution）

这是理解 EaaW 的前提。

5.1 特征归因是什么

特征归因方法属于 可解释 AI（XAI） 的一类工具，用来回答：

对于一个输入样本，哪些输入特征对当前预测最重要？

以图像为例：

哪些像素块最影响“这是一只猫”的判断？

以文本为例：

哪些词对“这句话是积极情绪”的判断贡献最大？

5.2 特征归因输出是什么

归因算法通常会给每个特征分配一个 实值重要性分数：

正值：该特征对当前预测有正向贡献
负值：该特征对当前预测有负向贡献
零：该特征几乎没有影响

EaaW 正是利用这些分数的 符号模式 来编码水印。

5.3 为什么解释结果适合做水印

因为解释结果有三个好处：

不一定改变最终预测标签
天然是高维的，可以承载多比特信息
比“误分类开关”更难伪造

6. EaaW 的整体框架

论文的整体思路可以概括成三步：

嵌入阶段：训练时让触发样本的解释结果满足预设水印模式
提取阶段：验证时对可疑模型运行特征归因算法，提取解释水印
验证阶段：判断提取结果是否与原始水印显著一致

7. 阶段一：水印嵌入怎么做

7.1 目标

在训练过程中同时满足两件事：

模型正常任务性能保持不变
指定触发样本的解释结果符合预设水印

7.2 嵌入损失函数

论文核心训练目标可写为：

$\min_{\Theta} \mathcal{L}_1 + \lambda \cdot \mathcal{L}_2$

其中：

$L1\mathcal{L}_1$ ：正常任务损失
$L2\mathcal{L}_2$ ：水印约束损失
$λ\lambda$ ：平衡两者的权重

7.3 这两个损失各自代表什么

（1）正常任务损失 $L1\mathcal{L}_1$

它保证模型该干什么还干什么：

图像分类依然分类正确
文本生成依然正常生成
预测准确率与实用性尽量不受影响

（2）解释约束损失 $L2\mathcal{L}_2$

它的作用是：

让特定触发样本的归因结果向预设水印模式靠拢
更准确地说，是让归因结果的符号与目标水印一致

论文这里使用类似 铰链损失 的约束思想，重点不要求数值完全一致，而要求正负号模式一致。

7.4 为什么这种方式“无害”

因为它没有强迫模型在触发样本上输出错误标签。

它只是改变：

某些特征对预测的相对重要性

而不是直接改写：

预测类别本身

所以模型行为层面不会出现传统后门那种“可恶意触发的误分类”。

8. 阶段二：黑盒条件下如何提取水印

EaaW 的妙处在于：它依然支持 黑盒提取。

8.1 为什么需要模型无关解释方法

因为在黑盒场景下：

看不到参数
看不到梯度
看不到内部特征图

所以不能用依赖内部信息的解释方法。

因此论文借鉴了 LIME 的思想。

8.2 LIME 式提取流程

EaaW 的提取过程可以概括为三步。

第一步：局部采样

对一个触发样本做随机遮蔽，生成很多“掩码样本”。

例如把一张图分成若干基础部分，再随机屏蔽其中一些部分，得到许多局部变体。

第二步：黑盒查询模型

把这些掩码样本送进可疑模型，获得对应预测输出或置信度。

第三步：拟合局部线性解释

根据：

掩码向量
预测输出

拟合一个局部线性模型，估计每个基础部分的重要性权重。

最后把每个权重的符号离散化：

权重 $≥0\ge 0$ → 记为 $+ 1$
权重 $< 0$ → 记为 $- 1$

这一串 $±1\pm 1$ 号模式，就是提取出来的多比特水印。

8.3 伪代码直观版

输入：触发样本、可疑模型 API
1. 随机生成多组掩码
2. 构造掩码样本
3. 查询模型输出
4. 拟合岭回归得到特征权重
5. 将权重符号映射成 ±1 水印比特
输出：提取到的水印序列

9. 阶段三：所有权验证怎么做

9.1 验证目标

提取完可疑模型的水印后，需要判断：

这个水印与原始水印的一致性，是否高到足以说明“它不是巧合”？

9.2 统计检验

论文使用 卡方检验 等统计方法来计算显著性，输出一个 $p$ -value。

直观理解：

如果提取水印与目标水印高度一致
且这种一致性在随机条件下几乎不可能出现
那么就可以支持所有权主张

9.3 验证判据

论文中使用类似如下的判断规则：

若 $p$ -value 小于预设阈值（例如 0.01）
则认为该模型高度可能继承了原始水印

这种方法比传统“看几张图错没错”要严谨得多，因为它是统计意义上的多比特验证。

10. 为什么 EaaW 比后门水印更强

10.1 对比表

维度	传统后门水印	EaaW
水印载体	误分类行为	解释结果
是否有害	有	无
水印位数	0 比特	多比特
是否容易伪造	容易	难
黑盒验证	支持	支持
所有权证明强度	弱	强

10.2 本质优势

EaaW 的强点可以概括为四句：

不碰预测标签，所以不引入后门危害
藏在解释空间，所以更隐蔽
多比特编码，所以更难伪造
黑盒可提取，所以更实用

11. 实验设计

11.1 任务与模型

论文在多类任务上验证方法有效性，包括：

图像分类：如 ResNet 类模型
文本生成 / 文本模型：如 GPT-2、BERT 等相关模型

这说明 EaaW 不是只适用于某一类视觉任务，而是具备跨任务潜力。

11.2 核心评估目标

论文主要验证四件事：

有效性：水印能不能稳定提取出来？
无害性：模型正常性能是否基本不受影响？
独特性：独立训练模型会不会误判为带水印？
鲁棒性：面对去水印攻击能否保留？

11.3 典型攻击场景

论文重点测试了以下常见去水印攻击：

微调攻击（Fine-tune）
模型剪枝（Pruning）
覆盖攻击（Overwrite）
遗忘攻击（Forgetting）

这几类攻击覆盖了：

非故意移除
故意自适应移除

两种主要风险。

12. 实验结果

12.1 有效性很强

论文报告：

水印提取成功率很高
水印成功率（WSR）接近 1.0
$p$ -value 极小，说明验证结论高度显著

这意味着：

只要模型真的继承了水印，EaaW 基本都能稳定验出来。

12.2 对正常性能影响很小

在图像分类任务上：

精度下降通常低于 1%

在文本任务上：

困惑度（PPL）几乎不变

这支撑了 EaaW 的“无害性”主张：

水印存在
但不明显损伤模型的正常能力

12.3 独立模型难以冒充

论文发现：

独立训练的模型，其提取水印与目标水印的一致率大约接近随机水平
独立触发器也无法通过验证

这说明 EaaW 具有较强 独特性。

12.4 抗攻击能力强

论文表明，面对多类去水印攻击时：

微调后仍可验证
剪枝后仍较稳定
覆盖/遗忘等自适应攻击下仍保留较高水印保留率

这说明解释空间水印比行为型后门水印更稳。

13. 适用场景与局限

13.1 适用场景

EaaW 特别适合以下场景：

云端黑盒 API 模型
需要版权保护的商用模型
图像分类与文本相关任务
不允许引入后门风险的高安全部署环境

13.2 局限性

论文也存在一些边界：

属于侵入式水印
- 需要训练或微调嵌入水印
提取有额外查询开销
- 需要构造多个掩码样本做黑盒查询
极长水印可能带来轻微性能代价
当前主要验证了特定解释方法与任务
- 更广泛模型与归因方法还有扩展空间

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

基于YOLOv11的人脸检测与表情识别系统源代码+详细文档，用自定义训练的YOLO模型进行表情识别

AtomGit开源社区

【无标题】

AtomGit开源社区

考虑源荷随机特征的热电联供微网优化研究（Matlab代码实现）

源荷不确定性指可再生能源出力（如风电、光伏）与负荷需求（电、热、冷）的不可预测波动，对微网运行的经济性和可靠性产生显著影响。不确定性来源与特点源侧不确定性：风电出力受气象条件影响大，预测误差可达30%以上，适合采用鲁棒优化处理。荷侧不确定性：负荷波动具有较强时间规律性（如日内峰谷变化），适合基于历史数据的随机场景生成。建模方法对比方法原理适用场景局限性概率分布模型基于历史数据拟合正态分布、Weib

AtomGit开源社区

所有评论(0)

查看更多评论

qzhqbb

@qzhqbb

已为社区贡献8条内容

论文学习：《Explanation as a Watermark》

qzhqbb

Explanation as a Watermark（EaaW）论文解读

1. 论文背景

1.1 模型已经成为知识产权

1.2 模型水印的基本思路

2. 现有方法

2.1 什么是基于后门的模型水印

2.2 基于后门水印的两个致命缺陷

（1）有害性

（2）模糊性

3. 根因分析

3.1 传统后门水印为什么是 0 比特

3.2 0 比特本质意味着什么

4. EaaW 的核心思想：把“解释”变成水印

4.1 关键问题

4.2 什么是“Explanation as a Watermark”

4.3 一句话理解

5. 先讲清楚：什么是特征归因（Feature Attribution）

5.1 特征归因是什么

5.2 特征归因输出是什么

5.3 为什么解释结果适合做水印

6. EaaW 的整体框架

7. 阶段一：水印嵌入怎么做

7.1 目标

7.2 嵌入损失函数

7.3 这两个损失各自代表什么

（1）正常任务损失 L1\mathcal{L}_1L1​

（2）解释约束损失 L2\mathcal{L}_2L2​

7.4 为什么这种方式“无害”

8. 阶段二：黑盒条件下如何提取水印

8.1 为什么需要模型无关解释方法

8.2 LIME 式提取流程

第一步：局部采样

第二步：黑盒查询模型

第三步：拟合局部线性解释

8.3 伪代码直观版

9. 阶段三：所有权验证怎么做

9.1 验证目标

9.2 统计检验

9.3 验证判据

10. 为什么 EaaW 比后门水印更强

10.1 对比表

10.2 本质优势

11. 实验设计

11.1 任务与模型

11.2 核心评估目标

11.3 典型攻击场景

12. 实验结果

12.1 有效性很强

12.2 对正常性能影响很小

12.3 独立模型难以冒充

12.4 抗攻击能力强

13. 适用场景与局限

13.1 适用场景

13.2 局限性

所有评论(0)

qzhqbb

（1）正常任务损失 $L1\mathcal{L}_1$

（2）解释约束损失 $L2\mathcal{L}_2$