Gumbel分布与冈贝尔水印

qzhqbb

349人浏览 · 2026-03-12 00:22:50

qzhqbb · 2026-03-12 00:22:50 发布

Gumbel分布与冈贝尔水印

一、Gumbel分布的数学基础

1.1 定义

Gumbel分布有两个参数：

位置参数 $μ\mu$ （均值相关，通常取0）
尺度参数 $β\beta$ （方差相关，通常取1）

一般形式 Gumbel(μ, β)

概率密度函数 PDF

$f(x;\mu,\beta) = \frac{1}{\beta}\, e^{-\left( \frac{x-\mu}{\beta} + e^{-\frac{x-\mu}{\beta}} \right)}$

μ: 位置参数（location），控制左右平移
β: 尺度参数（scale），β>0，控制分布宽窄

累积分布函数 CDF

$F(x;\mu,\beta) = e^{-e^{-\frac{x-\mu}{\beta}}}$

当取 μ=0，β=1 时，就是标准 Gumbel 分布：
$f(x) = e^{-(x + e^{-x})}$
μ、β 只是被归一化消掉了，不是不存在。

标准Gumbel分布 $Gumbel(0,1)\text{Gumbel}(0,1)$ 的概率密度函数（PDF）为：
$f(x) = e^{-(x + e^{-x})}$

1.2 性质与特征

Gumbel分布是统计学中描述"一组随机变量的最大值/最小值"的概率分布，也是大语言模型生成token的核心数学基础。其关键特征：

取值范围： $(−∞,+∞)(-\infty, +\infty)$ ，但值集中在 $[- 2, 2]$ 区间（90%以上概率）
长尾特性：有小概率出现极大/极小值，符合自然语言生成的"偶尔出现低概率词"的特点
关键性质：对 logits + Gumbel噪声 取最大值（argmax），等价于对logits做 softmax 采样（模型原生采样方式）

二、Gumbel噪声采样的重要性

2.1 Gumbel-Max Trick（模型采样的数学基础）

大语言模型生成token的核心逻辑是：

模型输出每个token的logits（未归一化的概率，值越大，模型越倾向生成该token）
对logits做 softmax 转为概率分布： $\frac{e^{l(v)}}{\sum_{v'} e^{l(v')}}$
从概率分布中采样一个token作为输出

数学上可以证明：对logits加Gumbel噪声后取argmax，等价于softmax采样，公式为：
$v^=arg⁡max⁡v(l(v)+gv)⇔采样自 p(v)=softmax(l(v))\hat{v} = \arg\max_v \left( l(v) + g_v \right) \quad \Leftrightarrow \quad \text{采样自} \ p(v) = \text{softmax}(l(v))$

其中 $gv∼Gumbel(0,1)g_v \sim \text{Gumbel}(0,1)$ 是为每个token独立生成的Gumbel噪声。

模型原生采样时，不是直接选logits最大的token（否则生成的文本会重复、无多样性），而是通过Gumbel噪声引入随机性
噪声的"随机性"和logits的"倾向性"结合，既保证生成的文本符合模型的语义逻辑，又有自然的多样性
这是所有大语言模型采样的底层数学原理，冈贝尔水印就是"藏在这个噪声里"做文章

三、冈贝尔水印的核心原理：噪声中藏水印，单条无失真

冈贝尔水印的聪明之处在于：利用Gumbel噪声的数学特性，把水印信号嵌入噪声中，单条文本分布和原始模型完全一致（无失真），但多条文本能检测出规律。

3.1 生成阶段的数学逻辑

冈贝尔水印在原生采样公式基础上，加了一个"密钥引导项"，完整公式：
$v^i=arg⁡max⁡v(li(v)+gv+ki⋅1v∈Gi)\hat{v}_i = \arg\max_v \left( l_i(v) + g_v + k_i \cdot \mathbf{1}_{v \in G_i} \right)$

拆解每一部分的作用：

部分	作用
$l_i(v)$	模型原生logits，决定token的基础倾向性
$gv∼Gumbel(0,1)g_v \sim \text{Gumbel}(0,1)$	原生噪声，引入随机性，保证采样多样性
$k_i$	第 $i$ 个位置的密钥值（通常±1），水印的核心引导信号
$1v∈Gi\mathbf{1}_{v \in G_i}$	指示函数：token在目标集合 $G_i$ 中则为1，否则为0
$ki⋅1v∈Gik_i \cdot \mathbf{1}_{v \in G_i}$	水印引导项：仅对目标token加/减一个小值，藏在Gumbel噪声中

为什么"单条无失真"？

Gumbel噪声的方差约为 $1.6449$ （ $π2/6\pi^2/6$ ），而水印引导项 $k_i$ 通常取±1——这个引导项的幅度远小于噪声的波动幅度，因此：

单条文本中，引导项的影响会被噪声"淹没"，采样结果的分布和原始模型完全一致（计算无失真）
多条文本中，引导项的"偏向性"会体现出来：目标token的选中概率会轻微上升（统计学上可检测）

3.2 检测阶段的统计规律

冈贝尔水印的检测不依赖单条文本，而是通过"遍历合法密钥+统计目标token命中数"，捕捉多响应的规律，公式：
$Score(K)=∑i=1Tki⋅1v^i∈Gi(K)>阈值\text{Score}(K) = \sum_{i=1}^T k_i \cdot \mathbf{1}_{\hat{v}_i \in G_i(K)} > \text{阈值}$