贝叶斯边际似然与强化学习：从行为建模到元学习

m0_59012280

383人浏览 · 2026-05-12 09:37:40

m0_59012280 · 2026-05-12 09:37:40 发布

文章目录

一、核心工具：边际似然与贝叶斯因子

给定模型 $\mathcal{M}$ 和数据 $\mathcal{D}$ ，**边际似然（model evidence）**将参数 $\theta$ 积分掉，直接衡量模型结构的解释能力：

$p(\mathcal{D} \mid \mathcal{M}) = \int p(\mathcal{D} \mid \theta, \mathcal{M})\, p(\theta \mid \mathcal{M})\, d\theta$

两模型的边际似然之比为贝叶斯因子：

$BF_{12} = \frac{p(\mathcal{D} \mid \mathcal{M}_1)}{p(\mathcal{D} \mid \mathcal{M}_2)}$

边际似然的关键性质是内置奥卡姆惩罚：复杂模型将先验概率质量分散到更大的参数空间，若额外复杂度没有被数据支持，边际似然会自动下降。这使它天然适合在参数数目不同的模型之间做比较，无需手动设置惩罚系数。

注意：在多数实际模型中，上述积分不可解析，需要近似方法（见第六节汇总）。

核心概念速查

概念	含义	参考资料
边际似然 / Model Evidence	对参数积分后衡量模型结构解释能力的量	Wilson & Izmailov 综述
贝叶斯因子	两模型边际似然之比，衡量相对证据强度	Kass & Raftery 1995
ELBO	边际似然的变分下界， $\log p(\mathcal{D}) \geq \mathcal{L}$	Blei et al. 2017
奥卡姆惩罚	边际似然对过复杂模型的自动惩罚机制	MacKay 2003 《信息论》第 28 章
条件边际似然	在训练集子集上条件化，与泛化更一致	Lotfi et al. ICML 2022

二、RL 行为模型比较：计算认知与精神病学视角

在心理学和神经科学中，研究者对同一组被试的 trial-by-trial 选择序列拟合多个候选 RL 模型，用边际似然判断哪种认知机制更有支持。边际似然此处扮演模型比较准则。

2.1 候选模型一览

模型	核心更新规则	自由参数	代码 / 文档
Rescorla-Wagner	$\leftarrow V + \alpha\,\delta_t$	$\alpha$	ActionModels.jl RW
Q-learning	$\leftarrow Q + \alpha[r + \gamma \max Q' - Q]$	$\alpha, \gamma$	hBayesDM bandit
SARSA	$\leftarrow Q + \alpha[r + \gamma Q(s',a') - Q]$	$\alpha, \gamma$	OpenAI Gym 教程
Model-Based RL	$Q_{\text{hyb}} = (1-w)Q_{\text{MF}} + w Q_{\text{MB}}$	$\in [0,1]$	hBayesDM two-step
Active Inference	最小化变分自由能 $\mathcal{F}$	精度超参数	pymdp

Rescorla-Wagner（RW）模型

最经典的时序差分更新规则：

$V_{t+1}(s) = V_t(s) + \alpha \cdot \underbrace{(r_t - V_t(s))}_{\delta_t,\ \text{预测误差}}$

$\alpha \in (0,1]$ 是唯一自由参数。模型假设奖惩学习率对称、无策略性探索。

Q-learning 与 SARSA

Q-learning（off-policy）目标为下一状态的贪婪 Q 值：

$\leftarrow Q(s,a) + \alpha \left[r + \gamma \max_{a'} Q(s',a') - Q(s,a)\right]$

SARSA（on-policy）使用实际执行动作 $a^{'}$ ：

$\leftarrow Q(s,a) + \alpha \left[r + \gamma Q(s',a') - Q(s,a)\right]$

两者的差别在人类行为建模中体现为：Q-learning 对应更"乐观"的反事实推断，SARSA 对应更保守的经验更新。

Model-Free vs. Model-Based RL

Model-free（习惯系统）仅依赖经验值更新；model-based（目标导向系统）维护内部转移模型 $\hat{T}(s'|s,a)$ 做前瞻规划。行为建模中通常拟合两者的加权混合：

$Q_{\text{hybrid}}(s,a) = (1-w)\,Q_{\text{MF}}(s,a) + w\,Q_{\text{MB}}(s,a)$

权重 $\in [0,1]$ 是可估计的自由参数，不同被试群体（如强迫症 vs. 健康）的 $w$ 分布差异常是临床研究的焦点。

扩展参数

参数	作用	适用场景	参考
Stickiness $\rho$	上一次选择的自回归偏置，捕捉行为惯性	选择持续性分析	Ahn et al. 2017
Lapse $\xi$	以概率 $\xi$ 随机选择，建模注意力失误	疲劳、精神障碍	hBayesDM gng 模型
风险敏感 $\rho$	效用函数凹凸性 $u(r)=r^\rho$	赌博任务、前景理论	Kahneman & Tversky 1979
奖惩不对称 $\alpha^+, \alpha^-$	奖励和惩罚使用不同学习率	情绪障碍建模	Frank et al. 2007

Active Inference（主动推断）

Active inference 将感知和行动统一为最小化变分自由能 $\mathcal{F}$ ：

$\mathcal{F} = \underbrace{D_{KL}[q(s)\,\|\,p(s)]}_{\text{复杂度（KL 惩罚）}} - \underbrace{\mathbb{E}_{q(s)}[\log p(o \mid s)]}_{\text{准确度（重建质量）}}$

其中 $p (s)$ 是状态先验， $p (o ∣ s)$ 是生成模型的观测似然， $q (s)$ 是近似后验。由 Jensen 不等式可知：

$-\mathcal{F} \leq \log p(o \mid \mathcal{M}) \quad \Leftrightarrow \quad \mathcal{F} \geq -\log p(o \mid \mathcal{M})$

因此最小化 $\mathcal{F}$ 等价于最大化边际似然的变分下界（ELBO），而非直接最大化边际似然本身。

Active Inference 资源	类型	链接
pymdp	Python 实现库	GitHub
FEP 论文合集	文献索引	GitHub
Active Inference in Psychiatry (2024)	综述论文	PMC
RL or Active Inference?	对比分析	PLOS ONE

2.2 hBayesDM：层级贝叶斯拟合工具

hBayesDM（Ahn et al., 2017）是最广泛使用的行为模型拟合工具包，基于 Stan/RStan，单行代码即可完成层级贝叶斯参数估计。

任务	代表模型	参数数	文档
Iowa Gambling Task	PVL-Delta, Value-Plus-Perseverance	4–7	hBayesDM IGT
Go/No-Go Task	RW + Pavlovian bias（4 variants）	3–5	hBayesDM GNG
Probabilistic Reversal Learning	Experience-Weighted Attraction	3	hBayesDM PRL
Two-Armed Bandit	Rescorla-Wagner delta rule	2	hBayesDM Bandit
Risk Aversion Task	Loss aversion + risk sensitivity	3	hBayesDM RA

参数估计：HMC 采样 + 非中心化参数化（noncentered parameterization，即"Matt trick"），减少层级模型中的后验漏斗问题。

模型比较：用 printFit() 输出所有候选模型的 LOOIC 和 WAIC：

m1 <- bandit2arm_delta("data.txt")
m2 <- bandit2arm_lapse("data.txt")
printFit(m1, m2)   # 数值越小越好

LOOIC/WAIC 衡量的是留一法预测准确度，均使用完整后验的逐点对数似然，比仅用点估计的 AIC/DIC 更可靠，但它们不直接等于边际似然——后者可以通过 bridge sampling 精确估计。

hBayesDM 资源	链接
GitHub 仓库	CCS-Lab/hBayesDM
官方文档	hbayesdm.readthedocs.io
核心论文（PMC）	Ahn et al. 2017
StanCon 2017 演讲	stancon_talks

2.3 Bridge Sampling 估计边际似然

Bridge sampling（Meng & Wong, 1996；Gronau et al., 2017）通过以下迭代方程估计模型的归一化常数（即边际似然）：

$\hat{c} = \frac{\dfrac{1}{n_2}\displaystyle\sum_{j=1}^{n_2} \dfrac{\tilde{p}(\tilde{\theta}_j \mid \mathcal{D})}{s_1\,\tilde{p}(\tilde{\theta}_j \mid \mathcal{D}) + s_2\,\hat{c}\,q(\tilde{\theta}_j)}}{\dfrac{1}{n_1}\displaystyle\sum_{i=1}^{n_1} \dfrac{q(\theta_i^*)}{s_1\,\tilde{p}(\theta_i^* \mid \mathcal{D}) + s_2\,\hat{c}\,q(\theta_i^*)}}$

符号说明：

$\tilde{p}(\theta|\mathcal{D})$ ：未归一化的后验（= 似然 × 先验）
$q(\theta)$ ：参考分布（通常取 $\tilde{p}$ 的多元正态近似）
$\theta_i^* \sim q$ ， $\tilde{\theta}_j \sim \tilde{p}$ ：分别从两个分布中采样
$s_1 = n_1/(n_1+n_2)$ ， $s_2 = n_2/(n_1+n_2)$ ：两分布的采样比例权重
收敛后 $\hat{c} = p(\mathcal{D}|\mathcal{M})$

实践流程（Stan + R）：

library(bridgesampling)
b1 <- bridge_sampler(m1)   # m1, m2 为 stanfit 对象
b2 <- bridge_sampler(m2)
bf(b1, b2)                 # 返回对数贝叶斯因子

方法变体	特点	适用场景	论文 / 代码
标准 Bridge Sampling	迭代估计归一化常数，渐近最优	中等维度认知/RL 模型	Gronau et al. 2017 · R 包
Warp-III Bridge	变换后验使参考分布更匹配，适合层级模型	高维层级模型、非嵌套比较	Meng & Schilling 2002
重要性采样（IS）	用重要性权重近似边际似然，更简单	低维模型，快速估计	Gronau et al. 2020
Bridge Sampling Diagnostics	MCSE + Pareto- $\hat{k}$ 评估估计可靠性	验证 bridge sampling 结果质量	arXiv:2508.14487

三、贝叶斯元强化学习：从 ELBO 近似到可追踪边际似然

元 RL 的目标是在任务分布 $p(\mathcal{T})$ 上学习一个可快速适应的策略。贝叶斯视角将每个任务的参数 $z$ （转移函数和奖励函数）视为隐变量，边际似然此处扮演训练目标。

**Bayes-Adaptive MDP（BAMDP）**形式化：最优策略以当前信念 $b_t = p(z|\tau_{1:t})$ 为状态，同时实现探索与利用权衡。核心挑战：对 $z$ 的完整后验在深度 RL 中通常不可追踪。

元 RL 方法谱系

方法	推断机制	边际似然处理	基准环境	论文 / 代码
VariBAD	RNN 编码器 + VAE	ELBO 近似（下界）	MuJoCo HalfCheetah-Vel	arXiv:1910.08348
GLiBRL	GLM + 共轭先验	精确可追踪	MuJoCo, MetaWorld	arXiv:2512.20974
RL²	RNN 隐状态记忆	无显式推断	MiniGrid, Atari	arXiv:1611.02779
MAML	梯度元学习	无	MuJoCo, Omniglot	arXiv:1703.03400
PEARL	离线任务推断 + SAC	ELBO 近似	MuJoCo 6 tasks	arXiv:1903.08254
Bayesian Meta-RL (Laplace)	Laplace 近似后验	近似边际似然	MuJoCo	RLJ 2025

3.1 VariBAD：ELBO 近似

VariBAD（Zintgraf et al., 2020）用 RNN 编码器近似 $p(z|\tau_{1:t})$ ，训练目标是在轨迹每个时间步上累积的 ELBO：

$\mathcal{L} = \sum_{t=1}^{T} \underbrace{\mathbb{E}_{q_\phi(z|\tau_{1:t})}\!\left[\log p_\theta(s_{t+1}, r_t \mid s_t, a_t, z)\right]}_{\text{动力学与奖励重建}} - \underbrace{D_{KL}\!\left[q_\phi(z \mid \tau_{1:t})\,\|\, p(z)\right]}_{\text{任务后验对先验的偏离}}$

策略网络以 $(s_t, \mu_z, \sigma_z)$ 为输入，随着轨迹增长， $q(z|\tau)$ 逐渐集中在真实任务参数附近，实现在线贝叶斯更新。

局限：ELBO 仅是 $\log p(\mathcal{D}|z)$ 的下界；编码器对相似任务可能产生模糊的任务表示，尤其在任务多样性高时。

VariBAD 资源	链接
论文（ICLR 2020）	arXiv:1910.08348
JMLR 扩展版	jmlr.org
官方代码	lmzintgraf/varibad

3.2 GLiBRL：解析可追踪的边际似然

GLiBRL（2025）的核心贡献是通过广义线性结构使边际似然精确可追踪，从而完全避免 ELBO 近似。

结构假设：

$\phi(s,a)^\top \theta_r, \qquad s' = \phi(s,a)^\top \theta_T + \epsilon$

其中 $\phi(\cdot)$ 是可学习的基函数， $\theta_r, \theta_T$ 是线性任务参数。在此线性结构下，对 $\theta$ 施加共轭 Normal-Wishart 先验，后验更新具有解析闭式——这正是共轭性使可追踪推断成为可能的关键。

为什么边际似然可追踪：在 GLM + 共轭先验的结构下， $p(\mathcal{D}|\mathcal{M})$ 等于 Normal-Wishart 归一化常数之比，存在显式表达式，无需任何采样近似。

基函数学习： $\phi$ 通过最大化边际对数似然来端对端训练：

$\phi^* = \arg\max_\phi \log p(\mathcal{D} \mid \mathcal{M}_\phi)$

结构性结果：GLiBRL 的 L2 任务表示距离与基于核的任务相似度之间存在闭式对应关系。在 MuJoCo 和 MetaWorld 上相比代表性 Meta-RL 基线提升最高 1.8×。

VariBAD vs. GLiBRL 对比：

维度	VariBAD	GLiBRL
推断机制	VAE + ELBO 近似	共轭先验 + 解析后验
边际似然	仅有变分下界	精确可追踪
任务表示质量	可能模糊	有结构性保证
基函数来源	固定/任意设计	通过 $\log p(\mathcal{D}
模型限制	任意网络结构	需要 GLM 线性假设
基准性能	基线	最高 +1.8×

GLiBRL 资源	链接
论文（arXiv 2025）	arXiv:2512.20974
OpenReview	openreview.net

四、离线 RL 中的世界模型选择

离线 MBRL 从预收集数据 $\mathcal{D}_{\text{off}}$ 中学习动力学模型，再用模型做规划或生成合成数据训练策略。边际似然此处扮演证据权重，用于在候选世界模型之间进行选择或加权。

4.1 问题：分布偏移使验证指标失效

候选动力学模型的在线性能难以用离线验证误差预测：数据分布之外的状态-动作对上，模型行为不可控，而策略恰好倾向于访问这些区域。边际似然 $p(\mathcal{D}_{\text{off}}|\mathcal{M}_k)$ 提供一种不依赖分布外评估的自然度量，同时内置复杂度惩罚。

模型平均：更贝叶斯的做法是不选单一模型，而按证据加权：

$\mid s, a, \mathcal{D}_{\text{off}}) = \sum_k \underbrace{p(\mathcal{M}_k \mid \mathcal{D}_{\text{off}})}_{\propto\, p(\mathcal{D}_{\text{off}} \mid \mathcal{M}_k)\,p(\mathcal{M}_k)}\; p(s' \mid s, a, \mathcal{M}_k)$

离线 RL 模型选择文献

论文	年份	核心方法	边际似然的角色	链接
Lotfi et al.	2022	条件边际似然分析	理论：量化 ML 与泛化的关系	arXiv:2202.11678 · 代码
BOMS	2025	贝叶斯优化 + 模型诱导核	互补工具：BO 替代直接计算	arXiv:2502.11480
Model Selection for Offline RL (Healthcare)	2022	离线指标对比分析	指出离线指标失效问题	PMC9190764
Offline MBRL + Causal World Model	2024	因果结构约束动力学模型	结构先验减少过拟合	Springer

4.2 边际似然与泛化的关系

Lotfi et al.（ICML 2022 Outstanding Paper）系统研究了边际似然与泛化误差的关系：

数据规模	标准边际似然 vs. 泛化	条件边际似然 vs. 泛化
小数据集	正相关 ✓	正相关 ✓
大数据集	负相关 ✗（Occam 惩罚过重）	正相关 ✓

这对离线 RL 的含义：当离线数据集较大时，直接用标准边际似然选择世界模型可能偏向过于简单的模型；条件边际似然是更合适的替代。

4.3 BOMS：贝叶斯优化辅助的模型选择

BOMS（2025）走了一条不同的路：它不直接计算 $p(\mathcal{D}_{\text{off}}|\mathcal{M})$ ，而是将模型选择重新表述为贝叶斯优化问题——用高斯过程对"模型 → 在线性能"这个黑盒函数建模。

核心设计是模型诱导核（model-induced kernel）：基于候选模型预测的相似度构造 GP 先验，以采集函数（acquisition function）指导仅需约 1%–2.5% 在线交互的主动评估。

注意：BOMS 和边际似然是互补但不同的工具——前者通过稀疏在线交互估计模型质量，后者通过对参数的积分直接衡量模型结构与离线数据的匹配程度。两者都能解决模型选择问题，但假设和代价不同。

五、贝叶斯逆强化学习：奖励结构的边际似然比较

IRL 从专家演示 $\mathcal{D}_{\text{demo}}$ 反推奖励函数。贝叶斯 IRL（Ramachandran & Amir, 2007）将其表述为后验推断：

$\mid \mathcal{D}_{\text{demo}}) \propto p(\mathcal{D}_{\text{demo}} \mid R)\, p(R)$

似然函数通常假设 Boltzmann 理性（专家以 softmax 方式选择近似最优动作）：

$p(\mathcal{D}_{\text{demo}} \mid R) = \prod_t \frac{\exp(\beta \cdot Q^R(s_t, a_t))}{\sum_{a'} \exp(\beta \cdot Q^R(s_t, a'))}$

边际似然此处扮演奖励假设的评判尺度：比较不同奖励结构哪个更能解释专家行为。

5.1 奖励结构的模型比较

$\frac{p(\mathcal{D}_{\text{demo}} \mid \mathcal{M}_{R_1})}{p(\mathcal{D}_{\text{demo}} \mid \mathcal{M}_{R_2})} = \frac{\int p(\mathcal{D} \mid R)\,p(R \mid \mathcal{M}_{R_1})\,dR}{\int p(\mathcal{D} \mid R)\,p(R \mid \mathcal{M}_{R_2})\,dR}$

奖励假设	数学形式	先验偏好	代表场景
线性奖励	$\phi(s)^\top w$	稀疏权重先验	特征工程明确的任务
非线性奖励	神经网络 $R_\theta(s)$	层权重正则化	高维观测（图像）
稀疏奖励	$\mathbb{1}[s = s^*]$	点质量先验	目标明确的终局任务
Dense reward	$R(s) = -\|s - s^*\|$ 势函数	连续高斯先验	需要快速反馈的连续控制
风险敏感奖励	$\mathbb{E}[R] - \lambda\,\text{Var}[R]$	$\lambda$ 上的先验	医疗、安全关键场景
多专家混合	$\sum_k \pi_k \mathcal{N}(R;\mu_k, \Sigma_k)$	Dirichlet 混合权重	异质行为策略

5.2 贝叶斯 IRL 文献

论文	年份	核心贡献	边际似然角色	链接
Ramachandran & Amir	2007	奠基性贝叶斯 IRL 框架	后验推断奖励函数	IJCAI 2007
Scalable Bayesian IRL	2021	GP 近似 Q，降低 MDP 求解开销	边际似然近似	OpenReview
Robust Bayesian IRL	2024	同时推断奖励函数 + 环境动力学	对动力学误差鲁棒	arXiv:2309.08571
Bayesian IRL for Non-Markovian Rewards	2024	奖励机（Reward Machine）扩展	历史增广后的后验	arXiv:2406.13991
AVA (LLM Alignment)	2024	变分贝叶斯 IRL 对齐 LLM	ELBO 近似	arXiv:2411.09341
Distributional IRL	2025	随机奖励信号的分布式 IRL	分布式边际似然	arXiv:2510.03013

六、边际似然估计方法汇总

四个方向的共同挑战是边际似然的计算。以下整理常见估计方法，精度以"相对于精确解析解"来衡量。

方法	适用场景	相对精度	计算代价	实现 / 论文
LOOIC / WAIC	层级贝叶斯行为模型	预测准确度替代	低（后处理）	R `loo` 包
Bridge Sampling	中等维度认知/RL 模型	高	中	R `bridgesampling` · 教程
Warp-III Bridge	高维层级模型、非嵌套	高	中	论文代码
重要性采样（IS）	低维模型，快速估计	中	低–中	Gronau et al. 2020
Laplace 近似	深度模型快速近似	低–中	低	laplace-torch
共轭解析（GLiBRL）	GLM 结构模型	精确	极低	arXiv:2512.20974
Thermodynamic Integration	高维复杂模型	高	高	Stan / PyMC
SGLD / SGHMC	大规模深度模型	近似	中–高	tensorflow-probability
Bridge Sampling Diagnostics	评估估计可靠性	—（诊断）	低	arXiv:2508.14487

七、四个方向横向比较

维度	行为模型比较	贝叶斯元 RL	离线 RL 模型选择	贝叶斯 IRL
边际似然的角色	比较准则	训练目标	证据权重	奖励假设评判
数据规模	小（百次试验）	大（多任务轨迹）	大（离线数据集）	中（专家演示）
计算可追踪性	中（bridge sampling）	困难（GLiBRL 例外）	困难（Laplace/BO）	困难（MDP 求解）
主要工具	hBayesDM, Stan	VariBAD, GLiBRL	BOMS, 模型集成	BIRL, scalable BIRL
可解释性	极强（认知参数）	中（任务编码）	中（动力学模型）	强（奖励结构）
应用场景	临床/神经科学	机器人快速适应	医疗/推荐系统	人机协作/模仿
代表开源项目	hBayesDM	varibad	BOMS	Scalable BIRL

八、参考文献与开源资源速查

工具包

工具	语言	功能	链接
hBayesDM	R / Python	层级贝叶斯 RL 行为模型 + LOOIC/WAIC	GitHub
bridgesampling	R	Bridge sampling 估计边际似然	CRAN
loo	R	LOOIC / WAIC / PSIS 计算	mc-stan.org/loo
ActionModels.jl	Julia	Rescorla-Wagner 等认知模型	文档
pymdp	Python	Active Inference / FEP 实现	GitHub
varibad	Python	VariBAD Meta-RL 基线	GitHub
Bayesian_model_comparison	Python	Lotfi et al. 边际似然与泛化复现	GitHub
Laplace	Python	神经网络 Laplace 近似边际似然	GitHub
FEP_Active_Inference_Papers	—	Active Inference 文献索引	GitHub

核心论文

论文	发表	链接
Ahn et al. hBayesDM	Computational Psychiatry 2017	PMC5869013
Gronau et al. Bridge Sampling Tutorial	J. Math. Psychology 2017	arXiv:1703.05984
Gronau et al. IS for Marginal Likelihood	Behavior Research Methods 2020	arXiv:1906.06020
Warp-III Bridge Sampling	Behavior Research Methods 2019	Springer
Bridge Sampling Diagnostics	arXiv 2025	arXiv:2508.14487
Zintgraf et al. VariBAD	ICLR 2020	arXiv:1910.08348
GLiBRL	arXiv 2025	arXiv:2512.20974
Bayesian Meta-RL with Laplace	RLJ / RLC 2025	rlj.cs.umass.edu
Lotfi et al. ML & Generalization	ICML 2022 Outstanding Paper	arXiv:2202.11678
BOMS Offline Model Selection	arXiv 2025	arXiv:2502.11480
Robust Bayesian IRL	arXiv 2024	arXiv:2309.08571
Bayesian IRL Non-Markovian	arXiv 2024	arXiv:2406.13991
Distributional IRL	arXiv 2025	arXiv:2510.03013
AVA LLM Alignment via BIRL	arXiv 2024	arXiv:2411.09341
Active Inference in Psychiatry	Entropy 2024	PMC11507080