论文学习:《Explanation as a Watermark》
Explanation as a Watermark(EaaW)论文解读
- 论文来源:NDSS 2025,方向是深度学习模型版权保护。
- 核心问题:如何在 黑盒场景 下验证一个可疑模型是否盗用了自己的模型?
- 传统方案缺陷:主流黑盒水印大多基于后门,会带来 有害性 和 所有权模糊性。
- 论文核心创新:提出 Explanation as a Watermark(EaaW),把模型的 特征归因解释结果 当成水印载体。
- 关键优势:
- 黑盒可验证
- 无后门、无害
- 多比特水印
- 抗伪造能力强
EaaW 不再把“是否误分类”当水印,而是把“模型为什么这样预测”的解释结果变成可提取的版权签名。
1. 论文背景
1.1 模型已经成为知识产权
训练一个高质量模型通常需要:
- 大量高质量数据
- 大量算力
- 长时间训练与调参
- 工程部署成本
因此,一个训练好的模型本身就是一种高价值资产。现实问题是:
如果别人复制、蒸馏、复用甚至偷走了你的模型,如何证明“它原本属于你”?
这就是 模型所有权验证(Model Ownership Verification) 的核心问题。
1.2 模型水印的基本思路
模型水印通常包含两个阶段:
- 水印嵌入
- 模型所有者在发布前,往模型中植入某种秘密模式
- 所有权验证
- 如果怀疑第三方模型盗用了自己的模型,就检测它是否“继承”了该秘密模式
如果可疑模型中存在与原模型一致的秘密模式,就可以作为所有权证明的一部分。
2. 现有方法
为什么基于后门的黑盒水印有根本问题
2.1 什么是基于后门的模型水印
目前主流的黑盒模型水印方法,大都借鉴 后门攻击(Backdoor Attack) 的机制。
它的基本逻辑是:
- 构造一组带触发器的特殊样本,称为 触发集
- 训练模型记住这组样本
- 当模型看到这些触发样本时,会输出特定错误结果
- 验证时,所有者秘密提交这些触发样本,如果可疑模型也出现相同异常行为,就认为它继承了原模型的水印
也就是说:
传统后门水印,本质上是“通过故意制造特殊误分类行为”来留下标记。
2.2 基于后门水印的两个致命缺陷
论文指出,后门水印有两个根本问题。
(1)有害性
后门水印会让模型对某些特殊输入出现可控误分类。
这意味着:
- 模型被嵌入了“恶意可触发行为”
- 攻击者若得到触发样本,可能把它当成真正的后门来利用
- 这会损害模型安全性与产品可信度
因此,这类水印并不是无害的版权标记,而是真正改变了模型行为。
(2)模糊性
传统方法常通过“是否误分类”来判断水印是否存在。
问题在于:
- 模型天然就会误分类一些样本
- 攻击者可能找到别的误分类样本来伪造“水印”
- 验证时很难明确证明:这到底是你原来的水印,还是模型本来就会出错
这就导致所有权归属变得模糊。
3. 根因分析
什么叫“0 比特水印本质”
这是这篇论文最重要的理论切入点之一。
3.1 传统后门水印为什么是 0 比特
传统黑盒后门水印通常只验证一件事:
对这个输入,模型有没有出现预期的错误预测?
也就是只有一个二元状态:
- 有 / 没有
- 错 / 没错
- 命中 / 未命中
这种水印不真正携带信息,只能表达“存在性”。
所以论文把它称为一种 0 比特水印。
3.2 0 比特本质意味着什么
“0 比特”并不是说完全没有价值,而是说:
- 它不携带丰富编码信息
- 不能唯一标识所有者
- 更像一个脆弱的开关信号,而不是一个真正的数字签名
因此它天然存在:
- 可伪造性高
- 归属证明弱
- 安全性有限
论文的核心突破就是:
不再把“预测是否错误”当水印,而是去寻找一个更丰富、且不伤害模型预测性能的载体空间。
4. EaaW 的核心思想:把“解释”变成水印
4.1 关键问题
论文提出的关键问题是:
能否在不改变模型预测结果的前提下,把水印嵌入到另一个空间里?
这个“另一个空间”就是:模型解释空间。
4.2 什么是“Explanation as a Watermark”
EaaW 的思想非常巧妙:
- 不改模型最终预测标签
- 不让模型在触发样本上故意误分类
- 而是控制模型对某些样本的 特征归因解释结果
换句话说,水印不再藏在“模型输出什么类别”里,而是藏在:
“模型为什么做出这个预测”这件事里。
4.3 一句话理解
EaaW = 把模型的可解释性输出,当作多比特、无害、黑盒可提取的版权签名。
5. 先讲清楚:什么是特征归因(Feature Attribution)
这是理解 EaaW 的前提。
5.1 特征归因是什么
特征归因方法属于 可解释 AI(XAI) 的一类工具,用来回答:
对于一个输入样本,哪些输入特征对当前预测最重要?
以图像为例:
- 哪些像素块最影响“这是一只猫”的判断?
以文本为例:
- 哪些词对“这句话是积极情绪”的判断贡献最大?
5.2 特征归因输出是什么
归因算法通常会给每个特征分配一个 实值重要性分数:
- 正值:该特征对当前预测有正向贡献
- 负值:该特征对当前预测有负向贡献
- 零:该特征几乎没有影响
EaaW 正是利用这些分数的 符号模式 来编码水印。
5.3 为什么解释结果适合做水印
因为解释结果有三个好处:
- 不一定改变最终预测标签
- 天然是高维的,可以承载多比特信息
- 比“误分类开关”更难伪造
6. EaaW 的整体框架
论文的整体思路可以概括成三步:
- 嵌入阶段:训练时让触发样本的解释结果满足预设水印模式
- 提取阶段:验证时对可疑模型运行特征归因算法,提取解释水印
- 验证阶段:判断提取结果是否与原始水印显著一致
7. 阶段一:水印嵌入怎么做
7.1 目标
在训练过程中同时满足两件事:
- 模型正常任务性能保持不变
- 指定触发样本的解释结果符合预设水印
7.2 嵌入损失函数
论文核心训练目标可写为:
minΘL1+λ⋅L2 \min_{\Theta} \mathcal{L}_1 + \lambda \cdot \mathcal{L}_2 ΘminL1+λ⋅L2
其中:
- L1\mathcal{L}_1L1:正常任务损失
- L2\mathcal{L}_2L2:水印约束损失
- λ\lambdaλ:平衡两者的权重
7.3 这两个损失各自代表什么
(1)正常任务损失 L1\mathcal{L}_1L1
它保证模型该干什么还干什么:
- 图像分类依然分类正确
- 文本生成依然正常生成
- 预测准确率与实用性尽量不受影响
(2)解释约束损失 L2\mathcal{L}_2L2
它的作用是:
- 让特定触发样本的归因结果向预设水印模式靠拢
- 更准确地说,是让归因结果的 符号 与目标水印一致
论文这里使用类似 铰链损失 的约束思想,重点不要求数值完全一致,而要求正负号模式一致。
7.4 为什么这种方式“无害”
因为它没有强迫模型在触发样本上输出错误标签。
它只是改变:
- 某些特征对预测的相对重要性
而不是直接改写:
- 预测类别本身
所以模型行为层面不会出现传统后门那种“可恶意触发的误分类”。
8. 阶段二:黑盒条件下如何提取水印
EaaW 的妙处在于:它依然支持 黑盒提取。
8.1 为什么需要模型无关解释方法
因为在黑盒场景下:
- 看不到参数
- 看不到梯度
- 看不到内部特征图
所以不能用依赖内部信息的解释方法。
因此论文借鉴了 LIME 的思想。
8.2 LIME 式提取流程
EaaW 的提取过程可以概括为三步。
第一步:局部采样
对一个触发样本做随机遮蔽,生成很多“掩码样本”。
例如把一张图分成若干基础部分,再随机屏蔽其中一些部分,得到许多局部变体。
第二步:黑盒查询模型
把这些掩码样本送进可疑模型,获得对应预测输出或置信度。
第三步:拟合局部线性解释
根据:
- 掩码向量
- 预测输出
拟合一个局部线性模型,估计每个基础部分的重要性权重。
最后把每个权重的符号离散化:
- 权重 ≥0\ge 0≥0 → 记为 +1+1+1
- 权重 <0< 0<0 → 记为 −1-1−1
这一串 ±1\pm 1±1 号模式,就是提取出来的多比特水印。
8.3 伪代码直观版
输入:触发样本、可疑模型 API
1. 随机生成多组掩码
2. 构造掩码样本
3. 查询模型输出
4. 拟合岭回归得到特征权重
5. 将权重符号映射成 ±1 水印比特
输出:提取到的水印序列
9. 阶段三:所有权验证怎么做
9.1 验证目标
提取完可疑模型的水印后,需要判断:
这个水印与原始水印的一致性,是否高到足以说明“它不是巧合”?
9.2 统计检验
论文使用 卡方检验 等统计方法来计算显著性,输出一个 ppp-value。
直观理解:
- 如果提取水印与目标水印高度一致
- 且这种一致性在随机条件下几乎不可能出现
- 那么就可以支持所有权主张
9.3 验证判据
论文中使用类似如下的判断规则:
- 若 ppp-value 小于预设阈值(例如 0.01)
- 则认为该模型高度可能继承了原始水印
这种方法比传统“看几张图错没错”要严谨得多,因为它是统计意义上的多比特验证。
10. 为什么 EaaW 比后门水印更强
10.1 对比表
| 维度 | 传统后门水印 | EaaW |
|---|---|---|
| 水印载体 | 误分类行为 | 解释结果 |
| 是否有害 | 有 | 无 |
| 水印位数 | 0 比特 | 多比特 |
| 是否容易伪造 | 容易 | 难 |
| 黑盒验证 | 支持 | 支持 |
| 所有权证明强度 | 弱 | 强 |
10.2 本质优势
EaaW 的强点可以概括为四句:
- 不碰预测标签,所以不引入后门危害
- 藏在解释空间,所以更隐蔽
- 多比特编码,所以更难伪造
- 黑盒可提取,所以更实用
11. 实验设计
11.1 任务与模型
论文在多类任务上验证方法有效性,包括:
- 图像分类:如 ResNet 类模型
- 文本生成 / 文本模型:如 GPT-2、BERT 等相关模型
这说明 EaaW 不是只适用于某一类视觉任务,而是具备跨任务潜力。
11.2 核心评估目标
论文主要验证四件事:
- 有效性:水印能不能稳定提取出来?
- 无害性:模型正常性能是否基本不受影响?
- 独特性:独立训练模型会不会误判为带水印?
- 鲁棒性:面对去水印攻击能否保留?
11.3 典型攻击场景
论文重点测试了以下常见去水印攻击:
- 微调攻击(Fine-tune)
- 模型剪枝(Pruning)
- 覆盖攻击(Overwrite)
- 遗忘攻击(Forgetting)
这几类攻击覆盖了:
- 非故意移除
- 故意自适应移除
两种主要风险。
12. 实验结果
12.1 有效性很强
论文报告:
- 水印提取成功率很高
- 水印成功率(WSR)接近 1.0
- ppp-value 极小,说明验证结论高度显著
这意味着:
只要模型真的继承了水印,EaaW 基本都能稳定验出来。
12.2 对正常性能影响很小
在图像分类任务上:
- 精度下降通常低于 1%
在文本任务上:
- 困惑度(PPL)几乎不变
这支撑了 EaaW 的“无害性”主张:
- 水印存在
- 但不明显损伤模型的正常能力
12.3 独立模型难以冒充
论文发现:
- 独立训练的模型,其提取水印与目标水印的一致率大约接近随机水平
- 独立触发器也无法通过验证
这说明 EaaW 具有较强 独特性。
12.4 抗攻击能力强
论文表明,面对多类去水印攻击时:
- 微调后仍可验证
- 剪枝后仍较稳定
- 覆盖/遗忘等自适应攻击下仍保留较高水印保留率
这说明解释空间水印比行为型后门水印更稳。
13. 适用场景与局限
13.1 适用场景
EaaW 特别适合以下场景:
- 云端黑盒 API 模型
- 需要版权保护的商用模型
- 图像分类与文本相关任务
- 不允许引入后门风险的高安全部署环境
13.2 局限性
论文也存在一些边界:
- 属于侵入式水印
- 需要训练或微调嵌入水印
- 提取有额外查询开销
- 需要构造多个掩码样本做黑盒查询
- 极长水印可能带来轻微性能代价
- 当前主要验证了特定解释方法与任务
- 更广泛模型与归因方法还有扩展空间
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐


所有评论(0)