贝叶斯边际似然与强化学习:从行为建模到元学习
文章目录
一、核心工具:边际似然与贝叶斯因子
给定模型 M \mathcal{M} M 和数据 D \mathcal{D} D,**边际似然(model evidence)**将参数 θ \theta θ 积分掉,直接衡量模型结构的解释能力:
p ( D ∣ M ) = ∫ p ( D ∣ θ , M ) p ( θ ∣ M ) d θ p(\mathcal{D} \mid \mathcal{M}) = \int p(\mathcal{D} \mid \theta, \mathcal{M})\, p(\theta \mid \mathcal{M})\, d\theta p(D∣M)=∫p(D∣θ,M)p(θ∣M)dθ
两模型的边际似然之比为贝叶斯因子:
B F 12 = p ( D ∣ M 1 ) p ( D ∣ M 2 ) BF_{12} = \frac{p(\mathcal{D} \mid \mathcal{M}_1)}{p(\mathcal{D} \mid \mathcal{M}_2)} BF12=p(D∣M2)p(D∣M1)
边际似然的关键性质是内置奥卡姆惩罚:复杂模型将先验概率质量分散到更大的参数空间,若额外复杂度没有被数据支持,边际似然会自动下降。这使它天然适合在参数数目不同的模型之间做比较,无需手动设置惩罚系数。
注意:在多数实际模型中,上述积分不可解析,需要近似方法(见第六节汇总)。
核心概念速查
| 概念 | 含义 | 参考资料 |
|---|---|---|
| 边际似然 / Model Evidence | 对参数积分后衡量模型结构解释能力的量 | Wilson & Izmailov 综述 |
| 贝叶斯因子 | 两模型边际似然之比,衡量相对证据强度 | Kass & Raftery 1995 |
| ELBO | 边际似然的变分下界, log p ( D ) ≥ L \log p(\mathcal{D}) \geq \mathcal{L} logp(D)≥L | Blei et al. 2017 |
| 奥卡姆惩罚 | 边际似然对过复杂模型的自动惩罚机制 | MacKay 2003 《信息论》第 28 章 |
| 条件边际似然 | 在训练集子集上条件化,与泛化更一致 | Lotfi et al. ICML 2022 |
二、RL 行为模型比较:计算认知与精神病学视角
在心理学和神经科学中,研究者对同一组被试的 trial-by-trial 选择序列拟合多个候选 RL 模型,用边际似然判断哪种认知机制更有支持。边际似然此处扮演模型比较准则。
2.1 候选模型一览
| 模型 | 核心更新规则 | 自由参数 | 代码 / 文档 |
|---|---|---|---|
| Rescorla-Wagner | V ← V + α δ t V \leftarrow V + \alpha\,\delta_t V←V+αδt | α \alpha α | ActionModels.jl RW |
| Q-learning | Q ← Q + α [ r + γ max Q ′ − Q ] Q \leftarrow Q + \alpha[r + \gamma \max Q' - Q] Q←Q+α[r+γmaxQ′−Q] | α , γ \alpha, \gamma α,γ | hBayesDM bandit |
| SARSA | Q ← Q + α [ r + γ Q ( s ′ , a ′ ) − Q ] Q \leftarrow Q + \alpha[r + \gamma Q(s',a') - Q] Q←Q+α[r+γQ(s′,a′)−Q] | α , γ \alpha, \gamma α,γ | OpenAI Gym 教程 |
| Model-Based RL | Q hyb = ( 1 − w ) Q MF + w Q MB Q_{\text{hyb}} = (1-w)Q_{\text{MF}} + w Q_{\text{MB}} Qhyb=(1−w)QMF+wQMB | w ∈ [ 0 , 1 ] w \in [0,1] w∈[0,1] | hBayesDM two-step |
| Active Inference | 最小化变分自由能 F \mathcal{F} F | 精度超参数 | pymdp |
Rescorla-Wagner(RW)模型
最经典的时序差分更新规则:
V t + 1 ( s ) = V t ( s ) + α ⋅ ( r t − V t ( s ) ) ⏟ δ t , 预测误差 V_{t+1}(s) = V_t(s) + \alpha \cdot \underbrace{(r_t - V_t(s))}_{\delta_t,\ \text{预测误差}} Vt+1(s)=Vt(s)+α⋅δt, 预测误差 (rt−Vt(s))
α ∈ ( 0 , 1 ] \alpha \in (0,1] α∈(0,1] 是唯一自由参数。模型假设奖惩学习率对称、无策略性探索。
Q-learning 与 SARSA
Q-learning(off-policy)目标为下一状态的贪婪 Q 值:
Q ( s , a ) ← Q ( s , a ) + α [ r + γ max a ′ Q ( s ′ , a ′ ) − Q ( s , a ) ] Q(s,a) \leftarrow Q(s,a) + \alpha \left[r + \gamma \max_{a'} Q(s',a') - Q(s,a)\right] Q(s,a)←Q(s,a)+α[r+γa′maxQ(s′,a′)−Q(s,a)]
SARSA(on-policy)使用实际执行动作 a ′ a' a′:
Q ( s , a ) ← Q ( s , a ) + α [ r + γ Q ( s ′ , a ′ ) − Q ( s , a ) ] Q(s,a) \leftarrow Q(s,a) + \alpha \left[r + \gamma Q(s',a') - Q(s,a)\right] Q(s,a)←Q(s,a)+α[r+γQ(s′,a′)−Q(s,a)]
两者的差别在人类行为建模中体现为:Q-learning 对应更"乐观"的反事实推断,SARSA 对应更保守的经验更新。
Model-Free vs. Model-Based RL
Model-free(习惯系统)仅依赖经验值更新;model-based(目标导向系统)维护内部转移模型 T ^ ( s ′ ∣ s , a ) \hat{T}(s'|s,a) T^(s′∣s,a) 做前瞻规划。行为建模中通常拟合两者的加权混合:
Q hybrid ( s , a ) = ( 1 − w ) Q MF ( s , a ) + w Q MB ( s , a ) Q_{\text{hybrid}}(s,a) = (1-w)\,Q_{\text{MF}}(s,a) + w\,Q_{\text{MB}}(s,a) Qhybrid(s,a)=(1−w)QMF(s,a)+wQMB(s,a)
权重 w ∈ [ 0 , 1 ] w \in [0,1] w∈[0,1] 是可估计的自由参数,不同被试群体(如强迫症 vs. 健康)的 w w w 分布差异常是临床研究的焦点。
扩展参数
| 参数 | 作用 | 适用场景 | 参考 |
|---|---|---|---|
| Stickiness ρ \rho ρ | 上一次选择的自回归偏置,捕捉行为惯性 | 选择持续性分析 | Ahn et al. 2017 |
| Lapse ξ \xi ξ | 以概率 ξ \xi ξ 随机选择,建模注意力失误 | 疲劳、精神障碍 | hBayesDM gng 模型 |
| 风险敏感 ρ \rho ρ | 效用函数凹凸性 u ( r ) = r ρ u(r)=r^\rho u(r)=rρ | 赌博任务、前景理论 | Kahneman & Tversky 1979 |
| 奖惩不对称 α + , α − \alpha^+, \alpha^- α+,α− | 奖励和惩罚使用不同学习率 | 情绪障碍建模 | Frank et al. 2007 |
Active Inference(主动推断)
Active inference 将感知和行动统一为最小化变分自由能 F \mathcal{F} F:
F = D K L [ q ( s ) ∥ p ( s ) ] ⏟ 复杂度(KL 惩罚) − E q ( s ) [ log p ( o ∣ s ) ] ⏟ 准确度(重建质量) \mathcal{F} = \underbrace{D_{KL}[q(s)\,\|\,p(s)]}_{\text{复杂度(KL 惩罚)}} - \underbrace{\mathbb{E}_{q(s)}[\log p(o \mid s)]}_{\text{准确度(重建质量)}} F=复杂度(KL 惩罚) DKL[q(s)∥p(s)]−准确度(重建质量) Eq(s)[logp(o∣s)]
其中 p ( s ) p(s) p(s) 是状态先验, p ( o ∣ s ) p(o|s) p(o∣s) 是生成模型的观测似然, q ( s ) q(s) q(s) 是近似后验。由 Jensen 不等式可知:
− F ≤ log p ( o ∣ M ) ⇔ F ≥ − log p ( o ∣ M ) -\mathcal{F} \leq \log p(o \mid \mathcal{M}) \quad \Leftrightarrow \quad \mathcal{F} \geq -\log p(o \mid \mathcal{M}) −F≤logp(o∣M)⇔F≥−logp(o∣M)
因此最小化 F \mathcal{F} F 等价于最大化边际似然的变分下界(ELBO),而非直接最大化边际似然本身。
| Active Inference 资源 | 类型 | 链接 |
|---|---|---|
| pymdp | Python 实现库 | GitHub |
| FEP 论文合集 | 文献索引 | GitHub |
| Active Inference in Psychiatry (2024) | 综述论文 | PMC |
| RL or Active Inference? | 对比分析 | PLOS ONE |
2.2 hBayesDM:层级贝叶斯拟合工具
hBayesDM(Ahn et al., 2017)是最广泛使用的行为模型拟合工具包,基于 Stan/RStan,单行代码即可完成层级贝叶斯参数估计。
| 任务 | 代表模型 | 参数数 | 文档 |
|---|---|---|---|
| Iowa Gambling Task | PVL-Delta, Value-Plus-Perseverance | 4–7 | hBayesDM IGT |
| Go/No-Go Task | RW + Pavlovian bias(4 variants) | 3–5 | hBayesDM GNG |
| Probabilistic Reversal Learning | Experience-Weighted Attraction | 3 | hBayesDM PRL |
| Two-Armed Bandit | Rescorla-Wagner delta rule | 2 | hBayesDM Bandit |
| Risk Aversion Task | Loss aversion + risk sensitivity | 3 | hBayesDM RA |
参数估计:HMC 采样 + 非中心化参数化(noncentered parameterization,即"Matt trick"),减少层级模型中的后验漏斗问题。
模型比较:用 printFit() 输出所有候选模型的 LOOIC 和 WAIC:
m1 <- bandit2arm_delta("data.txt")
m2 <- bandit2arm_lapse("data.txt")
printFit(m1, m2) # 数值越小越好
LOOIC/WAIC 衡量的是留一法预测准确度,均使用完整后验的逐点对数似然,比仅用点估计的 AIC/DIC 更可靠,但它们不直接等于边际似然——后者可以通过 bridge sampling 精确估计。
| hBayesDM 资源 | 链接 |
|---|---|
| GitHub 仓库 | CCS-Lab/hBayesDM |
| 官方文档 | hbayesdm.readthedocs.io |
| 核心论文(PMC) | Ahn et al. 2017 |
| StanCon 2017 演讲 | stancon_talks |
2.3 Bridge Sampling 估计边际似然
Bridge sampling(Meng & Wong, 1996;Gronau et al., 2017)通过以下迭代方程估计模型的归一化常数(即边际似然):
c ^ = 1 n 2 ∑ j = 1 n 2 p ~ ( θ ~ j ∣ D ) s 1 p ~ ( θ ~ j ∣ D ) + s 2 c ^ q ( θ ~ j ) 1 n 1 ∑ i = 1 n 1 q ( θ i ∗ ) s 1 p ~ ( θ i ∗ ∣ D ) + s 2 c ^ q ( θ i ∗ ) \hat{c} = \frac{\dfrac{1}{n_2}\displaystyle\sum_{j=1}^{n_2} \dfrac{\tilde{p}(\tilde{\theta}_j \mid \mathcal{D})}{s_1\,\tilde{p}(\tilde{\theta}_j \mid \mathcal{D}) + s_2\,\hat{c}\,q(\tilde{\theta}_j)}}{\dfrac{1}{n_1}\displaystyle\sum_{i=1}^{n_1} \dfrac{q(\theta_i^*)}{s_1\,\tilde{p}(\theta_i^* \mid \mathcal{D}) + s_2\,\hat{c}\,q(\theta_i^*)}} c^=n11i=1∑n1s1p~(θi∗∣D)+s2c^q(θi∗)q(θi∗)n21j=1∑n2s1p~(θ~j∣D)+s2c^q(θ~j)p~(θ~j∣D)
符号说明:
- p ~ ( θ ∣ D ) \tilde{p}(\theta|\mathcal{D}) p~(θ∣D):未归一化的后验(= 似然 × 先验)
- q ( θ ) q(\theta) q(θ):参考分布(通常取 p ~ \tilde{p} p~ 的多元正态近似)
- θ i ∗ ∼ q \theta_i^* \sim q θi∗∼q, θ ~ j ∼ p ~ \tilde{\theta}_j \sim \tilde{p} θ~j∼p~:分别从两个分布中采样
- s 1 = n 1 / ( n 1 + n 2 ) s_1 = n_1/(n_1+n_2) s1=n1/(n1+n2), s 2 = n 2 / ( n 1 + n 2 ) s_2 = n_2/(n_1+n_2) s2=n2/(n1+n2):两分布的采样比例权重
- 收敛后 c ^ = p ( D ∣ M ) \hat{c} = p(\mathcal{D}|\mathcal{M}) c^=p(D∣M)
实践流程(Stan + R):
library(bridgesampling)
b1 <- bridge_sampler(m1) # m1, m2 为 stanfit 对象
b2 <- bridge_sampler(m2)
bf(b1, b2) # 返回对数贝叶斯因子
| 方法变体 | 特点 | 适用场景 | 论文 / 代码 |
|---|---|---|---|
| 标准 Bridge Sampling | 迭代估计归一化常数,渐近最优 | 中等维度认知/RL 模型 | Gronau et al. 2017 · R 包 |
| Warp-III Bridge | 变换后验使参考分布更匹配,适合层级模型 | 高维层级模型、非嵌套比较 | Meng & Schilling 2002 |
| 重要性采样(IS) | 用重要性权重近似边际似然,更简单 | 低维模型,快速估计 | Gronau et al. 2020 |
| Bridge Sampling Diagnostics | MCSE + Pareto- k ^ \hat{k} k^ 评估估计可靠性 | 验证 bridge sampling 结果质量 | arXiv:2508.14487 |
三、贝叶斯元强化学习:从 ELBO 近似到可追踪边际似然
元 RL 的目标是在任务分布 p ( T ) p(\mathcal{T}) p(T) 上学习一个可快速适应的策略。贝叶斯视角将每个任务的参数 z z z(转移函数和奖励函数)视为隐变量,边际似然此处扮演训练目标。
**Bayes-Adaptive MDP(BAMDP)**形式化:最优策略以当前信念 b t = p ( z ∣ τ 1 : t ) b_t = p(z|\tau_{1:t}) bt=p(z∣τ1:t) 为状态,同时实现探索与利用权衡。核心挑战:对 z z z 的完整后验在深度 RL 中通常不可追踪。
元 RL 方法谱系
| 方法 | 推断机制 | 边际似然处理 | 基准环境 | 论文 / 代码 |
|---|---|---|---|---|
| VariBAD | RNN 编码器 + VAE | ELBO 近似(下界) | MuJoCo HalfCheetah-Vel | arXiv:1910.08348 |
| GLiBRL | GLM + 共轭先验 | 精确可追踪 | MuJoCo, MetaWorld | arXiv:2512.20974 |
| RL² | RNN 隐状态记忆 | 无显式推断 | MiniGrid, Atari | arXiv:1611.02779 |
| MAML | 梯度元学习 | 无 | MuJoCo, Omniglot | arXiv:1703.03400 |
| PEARL | 离线任务推断 + SAC | ELBO 近似 | MuJoCo 6 tasks | arXiv:1903.08254 |
| Bayesian Meta-RL (Laplace) | Laplace 近似后验 | 近似边际似然 | MuJoCo | RLJ 2025 |
3.1 VariBAD:ELBO 近似
VariBAD(Zintgraf et al., 2020)用 RNN 编码器近似 p ( z ∣ τ 1 : t ) p(z|\tau_{1:t}) p(z∣τ1:t),训练目标是在轨迹每个时间步上累积的 ELBO:
L = ∑ t = 1 T E q ϕ ( z ∣ τ 1 : t ) [ log p θ ( s t + 1 , r t ∣ s t , a t , z ) ] ⏟ 动力学与奖励重建 − D K L [ q ϕ ( z ∣ τ 1 : t ) ∥ p ( z ) ] ⏟ 任务后验对先验的偏离 \mathcal{L} = \sum_{t=1}^{T} \underbrace{\mathbb{E}_{q_\phi(z|\tau_{1:t})}\!\left[\log p_\theta(s_{t+1}, r_t \mid s_t, a_t, z)\right]}_{\text{动力学与奖励重建}} - \underbrace{D_{KL}\!\left[q_\phi(z \mid \tau_{1:t})\,\|\, p(z)\right]}_{\text{任务后验对先验的偏离}} L=t=1∑T动力学与奖励重建 Eqϕ(z∣τ1:t)[logpθ(st+1,rt∣st,at,z)]−任务后验对先验的偏离 DKL[qϕ(z∣τ1:t)∥p(z)]
策略网络以 ( s t , μ z , σ z ) (s_t, \mu_z, \sigma_z) (st,μz,σz) 为输入,随着轨迹增长, q ( z ∣ τ ) q(z|\tau) q(z∣τ) 逐渐集中在真实任务参数附近,实现在线贝叶斯更新。
局限:ELBO 仅是 log p ( D ∣ z ) \log p(\mathcal{D}|z) logp(D∣z) 的下界;编码器对相似任务可能产生模糊的任务表示,尤其在任务多样性高时。
| VariBAD 资源 | 链接 |
|---|---|
| 论文(ICLR 2020) | arXiv:1910.08348 |
| JMLR 扩展版 | jmlr.org |
| 官方代码 | lmzintgraf/varibad |
3.2 GLiBRL:解析可追踪的边际似然
GLiBRL(2025)的核心贡献是通过广义线性结构使边际似然精确可追踪,从而完全避免 ELBO 近似。
结构假设:
r ( s , a ) = ϕ ( s , a ) ⊤ θ r , s ′ = ϕ ( s , a ) ⊤ θ T + ϵ r(s,a) = \phi(s,a)^\top \theta_r, \qquad s' = \phi(s,a)^\top \theta_T + \epsilon r(s,a)=ϕ(s,a)⊤θr,s′=ϕ(s,a)⊤θT+ϵ
其中 ϕ ( ⋅ ) \phi(\cdot) ϕ(⋅) 是可学习的基函数, θ r , θ T \theta_r, \theta_T θr,θT 是线性任务参数。在此线性结构下,对 θ \theta θ 施加共轭 Normal-Wishart 先验,后验更新具有解析闭式——这正是共轭性使可追踪推断成为可能的关键。
为什么边际似然可追踪:在 GLM + 共轭先验的结构下, p ( D ∣ M ) p(\mathcal{D}|\mathcal{M}) p(D∣M) 等于 Normal-Wishart 归一化常数之比,存在显式表达式,无需任何采样近似。
基函数学习: ϕ \phi ϕ 通过最大化边际对数似然来端对端训练:
ϕ ∗ = arg max ϕ log p ( D ∣ M ϕ ) \phi^* = \arg\max_\phi \log p(\mathcal{D} \mid \mathcal{M}_\phi) ϕ∗=argϕmaxlogp(D∣Mϕ)
结构性结果:GLiBRL 的 L2 任务表示距离与基于核的任务相似度之间存在闭式对应关系。在 MuJoCo 和 MetaWorld 上相比代表性 Meta-RL 基线提升最高 1.8×。
VariBAD vs. GLiBRL 对比:
| 维度 | VariBAD | GLiBRL |
|---|---|---|
| 推断机制 | VAE + ELBO 近似 | 共轭先验 + 解析后验 |
| 边际似然 | 仅有变分下界 | 精确可追踪 |
| 任务表示质量 | 可能模糊 | 有结构性保证 |
| 基函数来源 | 固定/任意设计 | 通过 $\log p(\mathcal{D} |
| 模型限制 | 任意网络结构 | 需要 GLM 线性假设 |
| 基准性能 | 基线 | 最高 +1.8× |
| GLiBRL 资源 | 链接 |
|---|---|
| 论文(arXiv 2025) | arXiv:2512.20974 |
| OpenReview | openreview.net |
四、离线 RL 中的世界模型选择
离线 MBRL 从预收集数据 D off \mathcal{D}_{\text{off}} Doff 中学习动力学模型,再用模型做规划或生成合成数据训练策略。边际似然此处扮演证据权重,用于在候选世界模型之间进行选择或加权。
4.1 问题:分布偏移使验证指标失效
候选动力学模型的在线性能难以用离线验证误差预测:数据分布之外的状态-动作对上,模型行为不可控,而策略恰好倾向于访问这些区域。边际似然 p ( D off ∣ M k ) p(\mathcal{D}_{\text{off}}|\mathcal{M}_k) p(Doff∣Mk) 提供一种不依赖分布外评估的自然度量,同时内置复杂度惩罚。
模型平均:更贝叶斯的做法是不选单一模型,而按证据加权:
p ( s ′ ∣ s , a , D off ) = ∑ k p ( M k ∣ D off ) ⏟ ∝ p ( D off ∣ M k ) p ( M k ) p ( s ′ ∣ s , a , M k ) p(s' \mid s, a, \mathcal{D}_{\text{off}}) = \sum_k \underbrace{p(\mathcal{M}_k \mid \mathcal{D}_{\text{off}})}_{\propto\, p(\mathcal{D}_{\text{off}} \mid \mathcal{M}_k)\,p(\mathcal{M}_k)}\; p(s' \mid s, a, \mathcal{M}_k) p(s′∣s,a,Doff)=k∑∝p(Doff∣Mk)p(Mk) p(Mk∣Doff)p(s′∣s,a,Mk)
离线 RL 模型选择文献
| 论文 | 年份 | 核心方法 | 边际似然的角色 | 链接 |
|---|---|---|---|---|
| Lotfi et al. | 2022 | 条件边际似然分析 | 理论:量化 ML 与泛化的关系 | arXiv:2202.11678 · 代码 |
| BOMS | 2025 | 贝叶斯优化 + 模型诱导核 | 互补工具:BO 替代直接计算 | arXiv:2502.11480 |
| Model Selection for Offline RL (Healthcare) | 2022 | 离线指标对比分析 | 指出离线指标失效问题 | PMC9190764 |
| Offline MBRL + Causal World Model | 2024 | 因果结构约束动力学模型 | 结构先验减少过拟合 | Springer |
4.2 边际似然与泛化的关系
Lotfi et al.(ICML 2022 Outstanding Paper)系统研究了边际似然与泛化误差的关系:
| 数据规模 | 标准边际似然 vs. 泛化 | 条件边际似然 vs. 泛化 |
|---|---|---|
| 小数据集 | 正相关 ✓ | 正相关 ✓ |
| 大数据集 | 负相关 ✗(Occam 惩罚过重) | 正相关 ✓ |
这对离线 RL 的含义:当离线数据集较大时,直接用标准边际似然选择世界模型可能偏向过于简单的模型;条件边际似然是更合适的替代。
4.3 BOMS:贝叶斯优化辅助的模型选择
BOMS(2025)走了一条不同的路:它不直接计算 p ( D off ∣ M ) p(\mathcal{D}_{\text{off}}|\mathcal{M}) p(Doff∣M),而是将模型选择重新表述为贝叶斯优化问题——用高斯过程对"模型 → 在线性能"这个黑盒函数建模。
核心设计是模型诱导核(model-induced kernel):基于候选模型预测的相似度构造 GP 先验,以采集函数(acquisition function)指导仅需约 1%–2.5% 在线交互的主动评估。
注意:BOMS 和边际似然是互补但不同的工具——前者通过稀疏在线交互估计模型质量,后者通过对参数的积分直接衡量模型结构与离线数据的匹配程度。两者都能解决模型选择问题,但假设和代价不同。
五、贝叶斯逆强化学习:奖励结构的边际似然比较
IRL 从专家演示 D demo \mathcal{D}_{\text{demo}} Ddemo 反推奖励函数。贝叶斯 IRL(Ramachandran & Amir, 2007)将其表述为后验推断:
p ( R ∣ D demo ) ∝ p ( D demo ∣ R ) p ( R ) p(R \mid \mathcal{D}_{\text{demo}}) \propto p(\mathcal{D}_{\text{demo}} \mid R)\, p(R) p(R∣Ddemo)∝p(Ddemo∣R)p(R)
似然函数通常假设 Boltzmann 理性(专家以 softmax 方式选择近似最优动作):
p ( D demo ∣ R ) = ∏ t exp ( β ⋅ Q R ( s t , a t ) ) ∑ a ′ exp ( β ⋅ Q R ( s t , a ′ ) ) p(\mathcal{D}_{\text{demo}} \mid R) = \prod_t \frac{\exp(\beta \cdot Q^R(s_t, a_t))}{\sum_{a'} \exp(\beta \cdot Q^R(s_t, a'))} p(Ddemo∣R)=t∏∑a′exp(β⋅QR(st,a′))exp(β⋅QR(st,at))
边际似然此处扮演奖励假设的评判尺度:比较不同奖励结构哪个更能解释专家行为。
5.1 奖励结构的模型比较
B F = p ( D demo ∣ M R 1 ) p ( D demo ∣ M R 2 ) = ∫ p ( D ∣ R ) p ( R ∣ M R 1 ) d R ∫ p ( D ∣ R ) p ( R ∣ M R 2 ) d R BF = \frac{p(\mathcal{D}_{\text{demo}} \mid \mathcal{M}_{R_1})}{p(\mathcal{D}_{\text{demo}} \mid \mathcal{M}_{R_2})} = \frac{\int p(\mathcal{D} \mid R)\,p(R \mid \mathcal{M}_{R_1})\,dR}{\int p(\mathcal{D} \mid R)\,p(R \mid \mathcal{M}_{R_2})\,dR} BF=p(Ddemo∣MR2)p(Ddemo∣MR1)=∫p(D∣R)p(R∣MR2)dR∫p(D∣R)p(R∣MR1)dR
| 奖励假设 | 数学形式 | 先验偏好 | 代表场景 |
|---|---|---|---|
| 线性奖励 | R ( s ) = ϕ ( s ) ⊤ w R(s) = \phi(s)^\top w R(s)=ϕ(s)⊤w | 稀疏权重先验 | 特征工程明确的任务 |
| 非线性奖励 | 神经网络 R θ ( s ) R_\theta(s) Rθ(s) | 层权重正则化 | 高维观测(图像) |
| 稀疏奖励 | R ( s ) = 1 [ s = s ∗ ] R(s) = \mathbb{1}[s = s^*] R(s)=1[s=s∗] | 点质量先验 | 目标明确的终局任务 |
| Dense reward | R ( s ) = − ∣ s − s ∗ ∣ R(s) = -|s - s^*| R(s)=−∣s−s∗∣ 势函数 | 连续高斯先验 | 需要快速反馈的连续控制 |
| 风险敏感奖励 | E [ R ] − λ Var [ R ] \mathbb{E}[R] - \lambda\,\text{Var}[R] E[R]−λVar[R] | λ \lambda λ 上的先验 | 医疗、安全关键场景 |
| 多专家混合 | p ( R ) = ∑ k π k N ( R ; μ k , Σ k ) p(R) = \sum_k \pi_k \mathcal{N}(R;\mu_k, \Sigma_k) p(R)=∑kπkN(R;μk,Σk) | Dirichlet 混合权重 | 异质行为策略 |
5.2 贝叶斯 IRL 文献
| 论文 | 年份 | 核心贡献 | 边际似然角色 | 链接 |
|---|---|---|---|---|
| Ramachandran & Amir | 2007 | 奠基性贝叶斯 IRL 框架 | 后验推断奖励函数 | IJCAI 2007 |
| Scalable Bayesian IRL | 2021 | GP 近似 Q,降低 MDP 求解开销 | 边际似然近似 | OpenReview |
| Robust Bayesian IRL | 2024 | 同时推断奖励函数 + 环境动力学 | 对动力学误差鲁棒 | arXiv:2309.08571 |
| Bayesian IRL for Non-Markovian Rewards | 2024 | 奖励机(Reward Machine)扩展 | 历史增广后的后验 | arXiv:2406.13991 |
| AVA (LLM Alignment) | 2024 | 变分贝叶斯 IRL 对齐 LLM | ELBO 近似 | arXiv:2411.09341 |
| Distributional IRL | 2025 | 随机奖励信号的分布式 IRL | 分布式边际似然 | arXiv:2510.03013 |
六、边际似然估计方法汇总
四个方向的共同挑战是边际似然的计算。以下整理常见估计方法,精度以"相对于精确解析解"来衡量。
| 方法 | 适用场景 | 相对精度 | 计算代价 | 实现 / 论文 |
|---|---|---|---|---|
| LOOIC / WAIC | 层级贝叶斯行为模型 | 预测准确度替代 | 低(后处理) | R loo 包 |
| Bridge Sampling | 中等维度认知/RL 模型 | 高 | 中 | R bridgesampling · 教程 |
| Warp-III Bridge | 高维层级模型、非嵌套 | 高 | 中 | 论文代码 |
| 重要性采样(IS) | 低维模型,快速估计 | 中 | 低–中 | Gronau et al. 2020 |
| Laplace 近似 | 深度模型快速近似 | 低–中 | 低 | laplace-torch |
| 共轭解析(GLiBRL) | GLM 结构模型 | 精确 | 极低 | arXiv:2512.20974 |
| Thermodynamic Integration | 高维复杂模型 | 高 | 高 | Stan / PyMC |
| SGLD / SGHMC | 大规模深度模型 | 近似 | 中–高 | tensorflow-probability |
| Bridge Sampling Diagnostics | 评估估计可靠性 | —(诊断) | 低 | arXiv:2508.14487 |
七、四个方向横向比较
| 维度 | 行为模型比较 | 贝叶斯元 RL | 离线 RL 模型选择 | 贝叶斯 IRL |
|---|---|---|---|---|
| 边际似然的角色 | 比较准则 | 训练目标 | 证据权重 | 奖励假设评判 |
| 数据规模 | 小(百次试验) | 大(多任务轨迹) | 大(离线数据集) | 中(专家演示) |
| 计算可追踪性 | 中(bridge sampling) | 困难(GLiBRL 例外) | 困难(Laplace/BO) | 困难(MDP 求解) |
| 主要工具 | hBayesDM, Stan | VariBAD, GLiBRL | BOMS, 模型集成 | BIRL, scalable BIRL |
| 可解释性 | 极强(认知参数) | 中(任务编码) | 中(动力学模型) | 强(奖励结构) |
| 应用场景 | 临床/神经科学 | 机器人快速适应 | 医疗/推荐系统 | 人机协作/模仿 |
| 代表开源项目 | hBayesDM | varibad | BOMS | Scalable BIRL |
八、参考文献与开源资源速查
工具包
| 工具 | 语言 | 功能 | 链接 |
|---|---|---|---|
| hBayesDM | R / Python | 层级贝叶斯 RL 行为模型 + LOOIC/WAIC | GitHub |
| bridgesampling | R | Bridge sampling 估计边际似然 | CRAN |
| loo | R | LOOIC / WAIC / PSIS 计算 | mc-stan.org/loo |
| ActionModels.jl | Julia | Rescorla-Wagner 等认知模型 | 文档 |
| pymdp | Python | Active Inference / FEP 实现 | GitHub |
| varibad | Python | VariBAD Meta-RL 基线 | GitHub |
| Bayesian_model_comparison | Python | Lotfi et al. 边际似然与泛化复现 | GitHub |
| Laplace | Python | 神经网络 Laplace 近似边际似然 | GitHub |
| FEP_Active_Inference_Papers | — | Active Inference 文献索引 | GitHub |
核心论文
| 论文 | 发表 | 链接 |
|---|---|---|
| Ahn et al. hBayesDM | Computational Psychiatry 2017 | PMC5869013 |
| Gronau et al. Bridge Sampling Tutorial | J. Math. Psychology 2017 | arXiv:1703.05984 |
| Gronau et al. IS for Marginal Likelihood | Behavior Research Methods 2020 | arXiv:1906.06020 |
| Warp-III Bridge Sampling | Behavior Research Methods 2019 | Springer |
| Bridge Sampling Diagnostics | arXiv 2025 | arXiv:2508.14487 |
| Zintgraf et al. VariBAD | ICLR 2020 | arXiv:1910.08348 |
| GLiBRL | arXiv 2025 | arXiv:2512.20974 |
| Bayesian Meta-RL with Laplace | RLJ / RLC 2025 | rlj.cs.umass.edu |
| Lotfi et al. ML & Generalization | ICML 2022 Outstanding Paper | arXiv:2202.11678 |
| BOMS Offline Model Selection | arXiv 2025 | arXiv:2502.11480 |
| Robust Bayesian IRL | arXiv 2024 | arXiv:2309.08571 |
| Bayesian IRL Non-Markovian | arXiv 2024 | arXiv:2406.13991 |
| Distributional IRL | arXiv 2025 | arXiv:2510.03013 |
| AVA LLM Alignment via BIRL | arXiv 2024 | arXiv:2411.09341 |
| Active Inference in Psychiatry | Entropy 2024 | PMC11507080 |
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐


所有评论(0)