斯坦福-CS236 Lecture 15 生成模型的优劣评估 PPT标注

w348917281

394人浏览 · 2026-04-23 22:18:54

w348917281 · 2026-04-23 22:18:54 发布

序言：没办法做到完美，但尽量涵盖

生成式模型评估的核心思路
1. 根据目标任务选择对应的评估方法；
2. 密度估计：评估模型对数据分布的拟合程度；
3. 数据压缩：评估模型的编码效率（如平均编码长度）；
4. 采样 / 生成：评估生成样本的质量；
5. 隐变量的学习：评估学到的特征在下游任务中的迁移能力。
如果你很关心密度估计
1. $E_{p_{data}}[logp_{\theta }(x)]$ 对数似然越高，说明模型对真实数据分布的拟合越好;
2. 密度估计几乎是与数据压缩效率等价的，一般使用平均编码长度衡量压缩效率，而平均编码长度为 $-E_{p_{data}}[logp_{\theta }(x)]$ ，直观点的理解就是越常出现的符号用短编码，越不容易出现的符号用长编码，比如摩斯密码；
3. 最后给出了一个在GPT中也常用的评估标准即困惑度，相当于是 $E_{p_{data}}[logp_{\theta }(x)]$ 的变种，对数似然越高 → 困惑度越低 → 模型性能越好。
我们真的关心压缩吗
1. 答案是肯定的，如果你要做到很好的压缩率，你需要能够识别数据中的冗余和结构等；
2. 比如F=ma，如果你理解了这个公式，就不需要去记录数据而是通过公式就能算出来，相当于另种的数据压缩
3. 人类在文本上的理论极限：约 1.2~1.3 比特 / 字符，而大型语言模型（LLM）的表现：2019 年就已经实现了 0.94 比特 / 字符的压缩效率，超过了人类的理论水平。
不是所有模型都有压缩效率这一项的
1. 变分模型、生成对抗和基于能量的模型都没有似然性；
2. 对于变分模型可以使用ELBO作为评估；
3. 而生成对抗模型需要使用一种叫核密度估计的方式；
核密度估计
1. 如果样本中没有你想要的样本的概率密度，可以通过现有样本先画出直方图，然后通过直方图近似估计-0.5的概率分布；
通过直方图来看还是不够平滑
1. 高斯核最常用，以高斯核作为的实例，让直方图变得更加的顺滑了；
2. 相当于使用多个高斯叠加形成的平滑图形；
核函数的选择
1. 核函数K的两个要求，一个是积分为1，另一个是对称的；
2. 不同的 $\sigma$ 如上面右边那个图，红线表示 $\sigma$ 小形成的不够平滑的线条， $\sigma$ 越大，图形越平滑，当然你丢失的信息也越多；，可通过交叉验证试出一个合适的 $\sigma$ ；
3. 但是一旦进入高维空间后，KDE会变得不可靠了。
AIS
1. 评估带隐变量的模型优劣一般用分布对数似然，一般带隐变量的变分模型，样本分布的对数似然算不出来
2. 我们目的是要求p(x)来评估模型优劣，但是VAE输出的是p(x|z)分布的参数，要求p(x)还得积分求，这个积分算不出来，因此先以Z1为起点去近似Z2，其中Z2为p(x)即p(x,z)对z的积分，Z1为p(z)的积分恰好为1，将Z2/Z1拆解为 $\frac{Z2}{Z1.8}\times \frac{Z1.8}{Z1.6}\times \frac{Z1.6}{Z1.4}\times \frac{Z1.4}{Z1}=\frac{Z2}{Z1}$ ，假设有个参数t，对于Z1.4的分布为 $p(z)^{1-t}\cdot (p(x|z)p(z))^{t},t=0.4$ ，对于Z1.6的分布为 $p(z)^{1-t}\cdot (p(x|z)p(z))^{t},t=0.6$ ，Z1,8的分布为 $p(z)^{1-t}\cdot (p(x|z)p(z))^{t},t=0.8$ ，参数都带入后， $\frac{Z2}{Z1} = E_{x\sim p_{0}}[p(x|z)^{0.4}] \times E_{x\sim p_{0.4}}[p(x|z)^{0.2}] \times E_{x\sim p_{0.6}}[p(x|z)^{0.2}] \times E_{x\sim p_{0.8}}[p(x|z)^{0.2}]$ ，期望再用蒙特卡洛近似，就能算出Z2/Z1的值，又因为Z1 = 1，就得到Z2，Z2就是p(x)，就近似评估出了VAE模型的优劣，p(x)越大越好；+
基于样本质量的评估
1. 如果要评估样本质量很难，一种是让真人看多长时间能分辨出真假图，但这种方式不显示，最后推了集中方式，比如Inception Scores等。
Inception Scores
1. 清晰度
  1. 主要开生成图片得清晰度怎么样来评估优劣，可套用公式S计算单张图片在分类器下得熵，越大图越清晰
2. 多样性
  1. D就是多样性的计算公式，最后汇总了S计算IS，IS越大样本质量越好
  2. (IS) 只从生成分布 pθ 采样，没有直接考虑真实数据分布；这是它的缺陷。
Frechet Inception Distance
1. 需要一个预训练好的分类器，提取模型生成的图片和真实样本的特征，两个都拟合成多维高斯，再使用Wasserstein-2距离计算两个高斯之间的距离，越近则性能越好;
kernel inception distance
1. 核函数（如高斯核），把数据映射到高维特征空间，然后比较分布的矩（均值、协方差等）差异;
2. MMD第一项：分布 p 内部样本的平均相似度;
3. MMD第二项：分布 q 内部样本的平均相似度;
4. MMD第三项：p 和 q 之间样本的平均相似度；
5. 最终 MMD 值越小，代表两个分布越相似；
6. KID就是加了MMD的FID；
评估潜在表征
1. 无监督表征的三大核心评价指标：聚类性、压缩效率和解耦性；
聚类性
1. 直接在生成模型的潜在空间中运行 k-means 等聚类算法，再用聚类指标（如轮廓系数、ARI）量化效果，并不好说你更喜欢B还是更喜欢D；
有损压缩和重构
1. 一个优质的潜在表征，应当能在尽可能低的比特率 / 高压缩比下，仍能还原出高质量的原始数据
解耦性
1. 比如肤色有肤色的Z，年龄有年龄的Z，不会互相影响；