Explanation as a Watermark(EaaW)论文解读

  • 论文来源:NDSS 2025,方向是深度学习模型版权保护。
  • 核心问题:如何在 黑盒场景 下验证一个可疑模型是否盗用了自己的模型?
  • 传统方案缺陷:主流黑盒水印大多基于后门,会带来 有害性所有权模糊性
  • 论文核心创新:提出 Explanation as a Watermark(EaaW),把模型的 特征归因解释结果 当成水印载体。
  • 关键优势
    • 黑盒可验证
    • 无后门、无害
    • 多比特水印
    • 抗伪造能力强

EaaW 不再把“是否误分类”当水印,而是把“模型为什么这样预测”的解释结果变成可提取的版权签名。


1. 论文背景

1.1 模型已经成为知识产权

训练一个高质量模型通常需要:

  • 大量高质量数据
  • 大量算力
  • 长时间训练与调参
  • 工程部署成本

因此,一个训练好的模型本身就是一种高价值资产。现实问题是:

如果别人复制、蒸馏、复用甚至偷走了你的模型,如何证明“它原本属于你”?

这就是 模型所有权验证(Model Ownership Verification) 的核心问题。

1.2 模型水印的基本思路

模型水印通常包含两个阶段:

  1. 水印嵌入
    • 模型所有者在发布前,往模型中植入某种秘密模式
  2. 所有权验证
    • 如果怀疑第三方模型盗用了自己的模型,就检测它是否“继承”了该秘密模式

如果可疑模型中存在与原模型一致的秘密模式,就可以作为所有权证明的一部分。


2. 现有方法

为什么基于后门的黑盒水印有根本问题

2.1 什么是基于后门的模型水印

目前主流的黑盒模型水印方法,大都借鉴 后门攻击(Backdoor Attack) 的机制。

它的基本逻辑是:

  1. 构造一组带触发器的特殊样本,称为 触发集
  2. 训练模型记住这组样本
  3. 当模型看到这些触发样本时,会输出特定错误结果
  4. 验证时,所有者秘密提交这些触发样本,如果可疑模型也出现相同异常行为,就认为它继承了原模型的水印

也就是说:

传统后门水印,本质上是“通过故意制造特殊误分类行为”来留下标记。

2.2 基于后门水印的两个致命缺陷

论文指出,后门水印有两个根本问题。

(1)有害性

后门水印会让模型对某些特殊输入出现可控误分类。

这意味着:

  • 模型被嵌入了“恶意可触发行为”
  • 攻击者若得到触发样本,可能把它当成真正的后门来利用
  • 这会损害模型安全性与产品可信度

因此,这类水印并不是无害的版权标记,而是真正改变了模型行为。

(2)模糊性

传统方法常通过“是否误分类”来判断水印是否存在。

问题在于:

  • 模型天然就会误分类一些样本
  • 攻击者可能找到别的误分类样本来伪造“水印”
  • 验证时很难明确证明:这到底是你原来的水印,还是模型本来就会出错

这就导致所有权归属变得模糊。


3. 根因分析

什么叫“0 比特水印本质”

这是这篇论文最重要的理论切入点之一。

3.1 传统后门水印为什么是 0 比特

传统黑盒后门水印通常只验证一件事:

对这个输入,模型有没有出现预期的错误预测?

也就是只有一个二元状态:

  • 有 / 没有
  • 错 / 没错
  • 命中 / 未命中

这种水印不真正携带信息,只能表达“存在性”。

所以论文把它称为一种 0 比特水印

3.2 0 比特本质意味着什么

“0 比特”并不是说完全没有价值,而是说:

  • 它不携带丰富编码信息
  • 不能唯一标识所有者
  • 更像一个脆弱的开关信号,而不是一个真正的数字签名

因此它天然存在:

  1. 可伪造性高
  2. 归属证明弱
  3. 安全性有限

论文的核心突破就是:

不再把“预测是否错误”当水印,而是去寻找一个更丰富、且不伤害模型预测性能的载体空间。


4. EaaW 的核心思想:把“解释”变成水印

4.1 关键问题

论文提出的关键问题是:

能否在不改变模型预测结果的前提下,把水印嵌入到另一个空间里?

这个“另一个空间”就是:模型解释空间

4.2 什么是“Explanation as a Watermark”

EaaW 的思想非常巧妙:

  • 不改模型最终预测标签
  • 不让模型在触发样本上故意误分类
  • 而是控制模型对某些样本的 特征归因解释结果

换句话说,水印不再藏在“模型输出什么类别”里,而是藏在:

“模型为什么做出这个预测”这件事里。

4.3 一句话理解

EaaW = 把模型的可解释性输出,当作多比特、无害、黑盒可提取的版权签名。


5. 先讲清楚:什么是特征归因(Feature Attribution)

这是理解 EaaW 的前提。

5.1 特征归因是什么

特征归因方法属于 可解释 AI(XAI) 的一类工具,用来回答:

对于一个输入样本,哪些输入特征对当前预测最重要?

以图像为例:

  • 哪些像素块最影响“这是一只猫”的判断?

以文本为例:

  • 哪些词对“这句话是积极情绪”的判断贡献最大?

5.2 特征归因输出是什么

归因算法通常会给每个特征分配一个 实值重要性分数

  • 正值:该特征对当前预测有正向贡献
  • 负值:该特征对当前预测有负向贡献
  • 零:该特征几乎没有影响

EaaW 正是利用这些分数的 符号模式 来编码水印。

5.3 为什么解释结果适合做水印

因为解释结果有三个好处:

  1. 不一定改变最终预测标签
  2. 天然是高维的,可以承载多比特信息
  3. 比“误分类开关”更难伪造

6. EaaW 的整体框架

论文的整体思路可以概括成三步:

  1. 嵌入阶段:训练时让触发样本的解释结果满足预设水印模式
  2. 提取阶段:验证时对可疑模型运行特征归因算法,提取解释水印
  3. 验证阶段:判断提取结果是否与原始水印显著一致

7. 阶段一:水印嵌入怎么做

7.1 目标

在训练过程中同时满足两件事:

  1. 模型正常任务性能保持不变
  2. 指定触发样本的解释结果符合预设水印

7.2 嵌入损失函数

论文核心训练目标可写为:

min⁡ΘL1+λ⋅L2 \min_{\Theta} \mathcal{L}_1 + \lambda \cdot \mathcal{L}_2 ΘminL1+λL2

其中:

  • L1\mathcal{L}_1L1:正常任务损失
  • L2\mathcal{L}_2L2:水印约束损失
  • λ\lambdaλ:平衡两者的权重

7.3 这两个损失各自代表什么

(1)正常任务损失 L1\mathcal{L}_1L1

它保证模型该干什么还干什么:

  • 图像分类依然分类正确
  • 文本生成依然正常生成
  • 预测准确率与实用性尽量不受影响
(2)解释约束损失 L2\mathcal{L}_2L2

它的作用是:

  • 让特定触发样本的归因结果向预设水印模式靠拢
  • 更准确地说,是让归因结果的 符号 与目标水印一致

论文这里使用类似 铰链损失 的约束思想,重点不要求数值完全一致,而要求正负号模式一致。

7.4 为什么这种方式“无害”

因为它没有强迫模型在触发样本上输出错误标签。

它只是改变:

  • 某些特征对预测的相对重要性

而不是直接改写:

  • 预测类别本身

所以模型行为层面不会出现传统后门那种“可恶意触发的误分类”。


8. 阶段二:黑盒条件下如何提取水印

EaaW 的妙处在于:它依然支持 黑盒提取

8.1 为什么需要模型无关解释方法

因为在黑盒场景下:

  • 看不到参数
  • 看不到梯度
  • 看不到内部特征图

所以不能用依赖内部信息的解释方法。

因此论文借鉴了 LIME 的思想。

8.2 LIME 式提取流程

EaaW 的提取过程可以概括为三步。

第一步:局部采样

对一个触发样本做随机遮蔽,生成很多“掩码样本”。

例如把一张图分成若干基础部分,再随机屏蔽其中一些部分,得到许多局部变体。

第二步:黑盒查询模型

把这些掩码样本送进可疑模型,获得对应预测输出或置信度。

第三步:拟合局部线性解释

根据:

  • 掩码向量
  • 预测输出

拟合一个局部线性模型,估计每个基础部分的重要性权重。

最后把每个权重的符号离散化:

  • 权重 ≥0\ge 00 → 记为 +1+1+1
  • 权重 <0< 0<0 → 记为 −1-11

这一串 ±1\pm 1±1 号模式,就是提取出来的多比特水印。

8.3 伪代码直观版

输入:触发样本、可疑模型 API
1. 随机生成多组掩码
2. 构造掩码样本
3. 查询模型输出
4. 拟合岭回归得到特征权重
5. 将权重符号映射成 ±1 水印比特
输出:提取到的水印序列

9. 阶段三:所有权验证怎么做

9.1 验证目标

提取完可疑模型的水印后,需要判断:

这个水印与原始水印的一致性,是否高到足以说明“它不是巧合”?

9.2 统计检验

论文使用 卡方检验 等统计方法来计算显著性,输出一个 ppp-value。

直观理解:

  • 如果提取水印与目标水印高度一致
  • 且这种一致性在随机条件下几乎不可能出现
  • 那么就可以支持所有权主张

9.3 验证判据

论文中使用类似如下的判断规则:

  • ppp-value 小于预设阈值(例如 0.01)
  • 则认为该模型高度可能继承了原始水印

这种方法比传统“看几张图错没错”要严谨得多,因为它是统计意义上的多比特验证。


10. 为什么 EaaW 比后门水印更强

10.1 对比表

维度 传统后门水印 EaaW
水印载体 误分类行为 解释结果
是否有害
水印位数 0 比特 多比特
是否容易伪造 容易
黑盒验证 支持 支持
所有权证明强度

10.2 本质优势

EaaW 的强点可以概括为四句:

  1. 不碰预测标签,所以不引入后门危害
  2. 藏在解释空间,所以更隐蔽
  3. 多比特编码,所以更难伪造
  4. 黑盒可提取,所以更实用

11. 实验设计

11.1 任务与模型

论文在多类任务上验证方法有效性,包括:

  • 图像分类:如 ResNet 类模型
  • 文本生成 / 文本模型:如 GPT-2、BERT 等相关模型

这说明 EaaW 不是只适用于某一类视觉任务,而是具备跨任务潜力。

11.2 核心评估目标

论文主要验证四件事:

  1. 有效性:水印能不能稳定提取出来?
  2. 无害性:模型正常性能是否基本不受影响?
  3. 独特性:独立训练模型会不会误判为带水印?
  4. 鲁棒性:面对去水印攻击能否保留?

11.3 典型攻击场景

论文重点测试了以下常见去水印攻击:

  • 微调攻击(Fine-tune)
  • 模型剪枝(Pruning)
  • 覆盖攻击(Overwrite)
  • 遗忘攻击(Forgetting)

这几类攻击覆盖了:

  • 非故意移除
  • 故意自适应移除

两种主要风险。


12. 实验结果

12.1 有效性很强

论文报告:

  • 水印提取成功率很高
  • 水印成功率(WSR)接近 1.0
  • ppp-value 极小,说明验证结论高度显著

这意味着:

只要模型真的继承了水印,EaaW 基本都能稳定验出来。

12.2 对正常性能影响很小

在图像分类任务上:

  • 精度下降通常低于 1%

在文本任务上:

  • 困惑度(PPL)几乎不变

这支撑了 EaaW 的“无害性”主张:

  • 水印存在
  • 但不明显损伤模型的正常能力

12.3 独立模型难以冒充

论文发现:

  • 独立训练的模型,其提取水印与目标水印的一致率大约接近随机水平
  • 独立触发器也无法通过验证

这说明 EaaW 具有较强 独特性

12.4 抗攻击能力强

论文表明,面对多类去水印攻击时:

  1. 微调后仍可验证
  2. 剪枝后仍较稳定
  3. 覆盖/遗忘等自适应攻击下仍保留较高水印保留率

这说明解释空间水印比行为型后门水印更稳。


13. 适用场景与局限

13.1 适用场景

EaaW 特别适合以下场景:

  • 云端黑盒 API 模型
  • 需要版权保护的商用模型
  • 图像分类与文本相关任务
  • 不允许引入后门风险的高安全部署环境

13.2 局限性

论文也存在一些边界:

  1. 属于侵入式水印
    • 需要训练或微调嵌入水印
  2. 提取有额外查询开销
    • 需要构造多个掩码样本做黑盒查询
  3. 极长水印可能带来轻微性能代价
  4. 当前主要验证了特定解释方法与任务
    • 更广泛模型与归因方法还有扩展空间
Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐