一、核心工具:边际似然与贝叶斯因子

给定模型 M \mathcal{M} M 和数据 D \mathcal{D} D,**边际似然(model evidence)**将参数 θ \theta θ 积分掉,直接衡量模型结构的解释能力:

p ( D ∣ M ) = ∫ p ( D ∣ θ , M )   p ( θ ∣ M )   d θ p(\mathcal{D} \mid \mathcal{M}) = \int p(\mathcal{D} \mid \theta, \mathcal{M})\, p(\theta \mid \mathcal{M})\, d\theta p(DM)=p(Dθ,M)p(θM)dθ

两模型的边际似然之比为贝叶斯因子

B F 12 = p ( D ∣ M 1 ) p ( D ∣ M 2 ) BF_{12} = \frac{p(\mathcal{D} \mid \mathcal{M}_1)}{p(\mathcal{D} \mid \mathcal{M}_2)} BF12=p(DM2)p(DM1)

边际似然的关键性质是内置奥卡姆惩罚:复杂模型将先验概率质量分散到更大的参数空间,若额外复杂度没有被数据支持,边际似然会自动下降。这使它天然适合在参数数目不同的模型之间做比较,无需手动设置惩罚系数。

注意:在多数实际模型中,上述积分不可解析,需要近似方法(见第六节汇总)。

核心概念速查

概念 含义 参考资料
边际似然 / Model Evidence 对参数积分后衡量模型结构解释能力的量 Wilson & Izmailov 综述
贝叶斯因子 两模型边际似然之比,衡量相对证据强度 Kass & Raftery 1995
ELBO 边际似然的变分下界, log ⁡ p ( D ) ≥ L \log p(\mathcal{D}) \geq \mathcal{L} logp(D)L Blei et al. 2017
奥卡姆惩罚 边际似然对过复杂模型的自动惩罚机制 MacKay 2003 《信息论》第 28 章
条件边际似然 在训练集子集上条件化,与泛化更一致 Lotfi et al. ICML 2022

二、RL 行为模型比较:计算认知与精神病学视角

在心理学和神经科学中,研究者对同一组被试的 trial-by-trial 选择序列拟合多个候选 RL 模型,用边际似然判断哪种认知机制更有支持。边际似然此处扮演模型比较准则

2.1 候选模型一览

模型 核心更新规则 自由参数 代码 / 文档
Rescorla-Wagner V ← V + α   δ t V \leftarrow V + \alpha\,\delta_t VV+αδt α \alpha α ActionModels.jl RW
Q-learning Q ← Q + α [ r + γ max ⁡ Q ′ − Q ] Q \leftarrow Q + \alpha[r + \gamma \max Q' - Q] QQ+α[r+γmaxQQ] α , γ \alpha, \gamma α,γ hBayesDM bandit
SARSA Q ← Q + α [ r + γ Q ( s ′ , a ′ ) − Q ] Q \leftarrow Q + \alpha[r + \gamma Q(s',a') - Q] QQ+α[r+γQ(s,a)Q] α , γ \alpha, \gamma α,γ OpenAI Gym 教程
Model-Based RL Q hyb = ( 1 − w ) Q MF + w Q MB Q_{\text{hyb}} = (1-w)Q_{\text{MF}} + w Q_{\text{MB}} Qhyb=(1w)QMF+wQMB w ∈ [ 0 , 1 ] w \in [0,1] w[0,1] hBayesDM two-step
Active Inference 最小化变分自由能 F \mathcal{F} F 精度超参数 pymdp

Rescorla-Wagner(RW)模型

最经典的时序差分更新规则:

V t + 1 ( s ) = V t ( s ) + α ⋅ ( r t − V t ( s ) ) ⏟ δ t ,  预测误差 V_{t+1}(s) = V_t(s) + \alpha \cdot \underbrace{(r_t - V_t(s))}_{\delta_t,\ \text{预测误差}} Vt+1(s)=Vt(s)+αδt, 预测误差 (rtVt(s))

α ∈ ( 0 , 1 ] \alpha \in (0,1] α(0,1] 是唯一自由参数。模型假设奖惩学习率对称、无策略性探索。

Q-learning 与 SARSA

Q-learning(off-policy)目标为下一状态的贪婪 Q 值:

Q ( s , a ) ← Q ( s , a ) + α [ r + γ max ⁡ a ′ Q ( s ′ , a ′ ) − Q ( s , a ) ] Q(s,a) \leftarrow Q(s,a) + \alpha \left[r + \gamma \max_{a'} Q(s',a') - Q(s,a)\right] Q(s,a)Q(s,a)+α[r+γamaxQ(s,a)Q(s,a)]

SARSA(on-policy)使用实际执行动作 a ′ a' a

Q ( s , a ) ← Q ( s , a ) + α [ r + γ Q ( s ′ , a ′ ) − Q ( s , a ) ] Q(s,a) \leftarrow Q(s,a) + \alpha \left[r + \gamma Q(s',a') - Q(s,a)\right] Q(s,a)Q(s,a)+α[r+γQ(s,a)Q(s,a)]

两者的差别在人类行为建模中体现为:Q-learning 对应更"乐观"的反事实推断,SARSA 对应更保守的经验更新。

Model-Free vs. Model-Based RL

Model-free(习惯系统)仅依赖经验值更新;model-based(目标导向系统)维护内部转移模型 T ^ ( s ′ ∣ s , a ) \hat{T}(s'|s,a) T^(ss,a) 做前瞻规划。行为建模中通常拟合两者的加权混合

Q hybrid ( s , a ) = ( 1 − w )   Q MF ( s , a ) + w   Q MB ( s , a ) Q_{\text{hybrid}}(s,a) = (1-w)\,Q_{\text{MF}}(s,a) + w\,Q_{\text{MB}}(s,a) Qhybrid(s,a)=(1w)QMF(s,a)+wQMB(s,a)

权重 w ∈ [ 0 , 1 ] w \in [0,1] w[0,1] 是可估计的自由参数,不同被试群体(如强迫症 vs. 健康)的 w w w 分布差异常是临床研究的焦点。

扩展参数

参数 作用 适用场景 参考
Stickiness ρ \rho ρ 上一次选择的自回归偏置,捕捉行为惯性 选择持续性分析 Ahn et al. 2017
Lapse ξ \xi ξ 以概率 ξ \xi ξ 随机选择,建模注意力失误 疲劳、精神障碍 hBayesDM gng 模型
风险敏感 ρ \rho ρ 效用函数凹凸性 u ( r ) = r ρ u(r)=r^\rho u(r)=rρ 赌博任务、前景理论 Kahneman & Tversky 1979
奖惩不对称 α + , α − \alpha^+, \alpha^- α+,α 奖励和惩罚使用不同学习率 情绪障碍建模 Frank et al. 2007

Active Inference(主动推断)

Active inference 将感知和行动统一为最小化变分自由能 F \mathcal{F} F

F = D K L [ q ( s )   ∥   p ( s ) ] ⏟ 复杂度(KL 惩罚) − E q ( s ) [ log ⁡ p ( o ∣ s ) ] ⏟ 准确度(重建质量) \mathcal{F} = \underbrace{D_{KL}[q(s)\,\|\,p(s)]}_{\text{复杂度(KL 惩罚)}} - \underbrace{\mathbb{E}_{q(s)}[\log p(o \mid s)]}_{\text{准确度(重建质量)}} F=复杂度(KL 惩罚) DKL[q(s)p(s)]准确度(重建质量) Eq(s)[logp(os)]

其中 p ( s ) p(s) p(s) 是状态先验, p ( o ∣ s ) p(o|s) p(os) 是生成模型的观测似然, q ( s ) q(s) q(s) 是近似后验。由 Jensen 不等式可知:

− F ≤ log ⁡ p ( o ∣ M ) ⇔ F ≥ − log ⁡ p ( o ∣ M ) -\mathcal{F} \leq \log p(o \mid \mathcal{M}) \quad \Leftrightarrow \quad \mathcal{F} \geq -\log p(o \mid \mathcal{M}) Flogp(oM)Flogp(oM)

因此最小化 F \mathcal{F} F 等价于最大化边际似然的变分下界(ELBO),而非直接最大化边际似然本身。

Active Inference 资源 类型 链接
pymdp Python 实现库 GitHub
FEP 论文合集 文献索引 GitHub
Active Inference in Psychiatry (2024) 综述论文 PMC
RL or Active Inference? 对比分析 PLOS ONE

2.2 hBayesDM:层级贝叶斯拟合工具

hBayesDM(Ahn et al., 2017)是最广泛使用的行为模型拟合工具包,基于 Stan/RStan,单行代码即可完成层级贝叶斯参数估计。

任务 代表模型 参数数 文档
Iowa Gambling Task PVL-Delta, Value-Plus-Perseverance 4–7 hBayesDM IGT
Go/No-Go Task RW + Pavlovian bias(4 variants) 3–5 hBayesDM GNG
Probabilistic Reversal Learning Experience-Weighted Attraction 3 hBayesDM PRL
Two-Armed Bandit Rescorla-Wagner delta rule 2 hBayesDM Bandit
Risk Aversion Task Loss aversion + risk sensitivity 3 hBayesDM RA

参数估计:HMC 采样 + 非中心化参数化(noncentered parameterization,即"Matt trick"),减少层级模型中的后验漏斗问题。

模型比较:用 printFit() 输出所有候选模型的 LOOIC 和 WAIC:

m1 <- bandit2arm_delta("data.txt")
m2 <- bandit2arm_lapse("data.txt")
printFit(m1, m2)   # 数值越小越好

LOOIC/WAIC 衡量的是留一法预测准确度,均使用完整后验的逐点对数似然,比仅用点估计的 AIC/DIC 更可靠,但它们不直接等于边际似然——后者可以通过 bridge sampling 精确估计。

hBayesDM 资源 链接
GitHub 仓库 CCS-Lab/hBayesDM
官方文档 hbayesdm.readthedocs.io
核心论文(PMC) Ahn et al. 2017
StanCon 2017 演讲 stancon_talks

2.3 Bridge Sampling 估计边际似然

Bridge sampling(Meng & Wong, 1996;Gronau et al., 2017)通过以下迭代方程估计模型的归一化常数(即边际似然):

c ^ = 1 n 2 ∑ j = 1 n 2 p ~ ( θ ~ j ∣ D ) s 1   p ~ ( θ ~ j ∣ D ) + s 2   c ^   q ( θ ~ j ) 1 n 1 ∑ i = 1 n 1 q ( θ i ∗ ) s 1   p ~ ( θ i ∗ ∣ D ) + s 2   c ^   q ( θ i ∗ ) \hat{c} = \frac{\dfrac{1}{n_2}\displaystyle\sum_{j=1}^{n_2} \dfrac{\tilde{p}(\tilde{\theta}_j \mid \mathcal{D})}{s_1\,\tilde{p}(\tilde{\theta}_j \mid \mathcal{D}) + s_2\,\hat{c}\,q(\tilde{\theta}_j)}}{\dfrac{1}{n_1}\displaystyle\sum_{i=1}^{n_1} \dfrac{q(\theta_i^*)}{s_1\,\tilde{p}(\theta_i^* \mid \mathcal{D}) + s_2\,\hat{c}\,q(\theta_i^*)}} c^=n11i=1n1s1p~(θiD)+s2c^q(θi)q(θi)n21j=1n2s1p~(θ~jD)+s2c^q(θ~j)p~(θ~jD)

符号说明

  • p ~ ( θ ∣ D ) \tilde{p}(\theta|\mathcal{D}) p~(θD):未归一化的后验(= 似然 × 先验)
  • q ( θ ) q(\theta) q(θ):参考分布(通常取 p ~ \tilde{p} p~ 的多元正态近似)
  • θ i ∗ ∼ q \theta_i^* \sim q θiq θ ~ j ∼ p ~ \tilde{\theta}_j \sim \tilde{p} θ~jp~:分别从两个分布中采样
  • s 1 = n 1 / ( n 1 + n 2 ) s_1 = n_1/(n_1+n_2) s1=n1/(n1+n2) s 2 = n 2 / ( n 1 + n 2 ) s_2 = n_2/(n_1+n_2) s2=n2/(n1+n2):两分布的采样比例权重
  • 收敛后 c ^ = p ( D ∣ M ) \hat{c} = p(\mathcal{D}|\mathcal{M}) c^=p(DM)

实践流程(Stan + R):

library(bridgesampling)
b1 <- bridge_sampler(m1)   # m1, m2 为 stanfit 对象
b2 <- bridge_sampler(m2)
bf(b1, b2)                 # 返回对数贝叶斯因子
方法变体 特点 适用场景 论文 / 代码
标准 Bridge Sampling 迭代估计归一化常数,渐近最优 中等维度认知/RL 模型 Gronau et al. 2017 · R 包
Warp-III Bridge 变换后验使参考分布更匹配,适合层级模型 高维层级模型、非嵌套比较 Meng & Schilling 2002
重要性采样(IS) 用重要性权重近似边际似然,更简单 低维模型,快速估计 Gronau et al. 2020
Bridge Sampling Diagnostics MCSE + Pareto- k ^ \hat{k} k^ 评估估计可靠性 验证 bridge sampling 结果质量 arXiv:2508.14487

三、贝叶斯元强化学习:从 ELBO 近似到可追踪边际似然

元 RL 的目标是在任务分布 p ( T ) p(\mathcal{T}) p(T) 上学习一个可快速适应的策略。贝叶斯视角将每个任务的参数 z z z(转移函数和奖励函数)视为隐变量,边际似然此处扮演训练目标

**Bayes-Adaptive MDP(BAMDP)**形式化:最优策略以当前信念 b t = p ( z ∣ τ 1 : t ) b_t = p(z|\tau_{1:t}) bt=p(zτ1:t) 为状态,同时实现探索与利用权衡。核心挑战:对 z z z 的完整后验在深度 RL 中通常不可追踪。

元 RL 方法谱系

方法 推断机制 边际似然处理 基准环境 论文 / 代码
VariBAD RNN 编码器 + VAE ELBO 近似(下界) MuJoCo HalfCheetah-Vel arXiv:1910.08348
GLiBRL GLM + 共轭先验 精确可追踪 MuJoCo, MetaWorld arXiv:2512.20974
RL² RNN 隐状态记忆 无显式推断 MiniGrid, Atari arXiv:1611.02779
MAML 梯度元学习 MuJoCo, Omniglot arXiv:1703.03400
PEARL 离线任务推断 + SAC ELBO 近似 MuJoCo 6 tasks arXiv:1903.08254
Bayesian Meta-RL (Laplace) Laplace 近似后验 近似边际似然 MuJoCo RLJ 2025

3.1 VariBAD:ELBO 近似

VariBAD(Zintgraf et al., 2020)用 RNN 编码器近似 p ( z ∣ τ 1 : t ) p(z|\tau_{1:t}) p(zτ1:t),训练目标是在轨迹每个时间步上累积的 ELBO:

L = ∑ t = 1 T E q ϕ ( z ∣ τ 1 : t )  ⁣ [ log ⁡ p θ ( s t + 1 , r t ∣ s t , a t , z ) ] ⏟ 动力学与奖励重建 − D K L  ⁣ [ q ϕ ( z ∣ τ 1 : t )   ∥   p ( z ) ] ⏟ 任务后验对先验的偏离 \mathcal{L} = \sum_{t=1}^{T} \underbrace{\mathbb{E}_{q_\phi(z|\tau_{1:t})}\!\left[\log p_\theta(s_{t+1}, r_t \mid s_t, a_t, z)\right]}_{\text{动力学与奖励重建}} - \underbrace{D_{KL}\!\left[q_\phi(z \mid \tau_{1:t})\,\|\, p(z)\right]}_{\text{任务后验对先验的偏离}} L=t=1T动力学与奖励重建 Eqϕ(zτ1:t)[logpθ(st+1,rtst,at,z)]任务后验对先验的偏离 DKL[qϕ(zτ1:t)p(z)]

策略网络以 ( s t , μ z , σ z ) (s_t, \mu_z, \sigma_z) (st,μz,σz) 为输入,随着轨迹增长, q ( z ∣ τ ) q(z|\tau) q(zτ) 逐渐集中在真实任务参数附近,实现在线贝叶斯更新。

局限:ELBO 仅是 log ⁡ p ( D ∣ z ) \log p(\mathcal{D}|z) logp(Dz) 的下界;编码器对相似任务可能产生模糊的任务表示,尤其在任务多样性高时。

VariBAD 资源 链接
论文(ICLR 2020) arXiv:1910.08348
JMLR 扩展版 jmlr.org
官方代码 lmzintgraf/varibad

3.2 GLiBRL:解析可追踪的边际似然

GLiBRL(2025)的核心贡献是通过广义线性结构使边际似然精确可追踪,从而完全避免 ELBO 近似。

结构假设

r ( s , a ) = ϕ ( s , a ) ⊤ θ r , s ′ = ϕ ( s , a ) ⊤ θ T + ϵ r(s,a) = \phi(s,a)^\top \theta_r, \qquad s' = \phi(s,a)^\top \theta_T + \epsilon r(s,a)=ϕ(s,a)θr,s=ϕ(s,a)θT+ϵ

其中 ϕ ( ⋅ ) \phi(\cdot) ϕ()可学习的基函数, θ r , θ T \theta_r, \theta_T θr,θT 是线性任务参数。在此线性结构下,对 θ \theta θ 施加共轭 Normal-Wishart 先验,后验更新具有解析闭式——这正是共轭性使可追踪推断成为可能的关键。

为什么边际似然可追踪:在 GLM + 共轭先验的结构下, p ( D ∣ M ) p(\mathcal{D}|\mathcal{M}) p(DM) 等于 Normal-Wishart 归一化常数之比,存在显式表达式,无需任何采样近似。

基函数学习 ϕ \phi ϕ 通过最大化边际对数似然来端对端训练:

ϕ ∗ = arg ⁡ max ⁡ ϕ log ⁡ p ( D ∣ M ϕ ) \phi^* = \arg\max_\phi \log p(\mathcal{D} \mid \mathcal{M}_\phi) ϕ=argϕmaxlogp(DMϕ)

结构性结果:GLiBRL 的 L2 任务表示距离与基于核的任务相似度之间存在闭式对应关系。在 MuJoCo 和 MetaWorld 上相比代表性 Meta-RL 基线提升最高 1.8×。

VariBAD vs. GLiBRL 对比

维度 VariBAD GLiBRL
推断机制 VAE + ELBO 近似 共轭先验 + 解析后验
边际似然 仅有变分下界 精确可追踪
任务表示质量 可能模糊 有结构性保证
基函数来源 固定/任意设计 通过 $\log p(\mathcal{D}
模型限制 任意网络结构 需要 GLM 线性假设
基准性能 基线 最高 +1.8×
GLiBRL 资源 链接
论文(arXiv 2025) arXiv:2512.20974
OpenReview openreview.net

四、离线 RL 中的世界模型选择

离线 MBRL 从预收集数据 D off \mathcal{D}_{\text{off}} Doff 中学习动力学模型,再用模型做规划或生成合成数据训练策略。边际似然此处扮演证据权重,用于在候选世界模型之间进行选择或加权。

4.1 问题:分布偏移使验证指标失效

候选动力学模型的在线性能难以用离线验证误差预测:数据分布之外的状态-动作对上,模型行为不可控,而策略恰好倾向于访问这些区域。边际似然 p ( D off ∣ M k ) p(\mathcal{D}_{\text{off}}|\mathcal{M}_k) p(DoffMk) 提供一种不依赖分布外评估的自然度量,同时内置复杂度惩罚。

模型平均:更贝叶斯的做法是不选单一模型,而按证据加权:

p ( s ′ ∣ s , a , D off ) = ∑ k p ( M k ∣ D off ) ⏟ ∝   p ( D off ∣ M k )   p ( M k )    p ( s ′ ∣ s , a , M k ) p(s' \mid s, a, \mathcal{D}_{\text{off}}) = \sum_k \underbrace{p(\mathcal{M}_k \mid \mathcal{D}_{\text{off}})}_{\propto\, p(\mathcal{D}_{\text{off}} \mid \mathcal{M}_k)\,p(\mathcal{M}_k)}\; p(s' \mid s, a, \mathcal{M}_k) p(ss,a,Doff)=kp(DoffMk)p(Mk) p(MkDoff)p(ss,a,Mk)

离线 RL 模型选择文献

论文 年份 核心方法 边际似然的角色 链接
Lotfi et al. 2022 条件边际似然分析 理论:量化 ML 与泛化的关系 arXiv:2202.11678 · 代码
BOMS 2025 贝叶斯优化 + 模型诱导核 互补工具:BO 替代直接计算 arXiv:2502.11480
Model Selection for Offline RL (Healthcare) 2022 离线指标对比分析 指出离线指标失效问题 PMC9190764
Offline MBRL + Causal World Model 2024 因果结构约束动力学模型 结构先验减少过拟合 Springer

4.2 边际似然与泛化的关系

Lotfi et al.(ICML 2022 Outstanding Paper)系统研究了边际似然与泛化误差的关系:

数据规模 标准边际似然 vs. 泛化 条件边际似然 vs. 泛化
小数据集 正相关 ✓ 正相关 ✓
大数据集 负相关 ✗(Occam 惩罚过重) 正相关 ✓

这对离线 RL 的含义:当离线数据集较大时,直接用标准边际似然选择世界模型可能偏向过于简单的模型;条件边际似然是更合适的替代。

4.3 BOMS:贝叶斯优化辅助的模型选择

BOMS(2025)走了一条不同的路:它不直接计算 p ( D off ∣ M ) p(\mathcal{D}_{\text{off}}|\mathcal{M}) p(DoffM),而是将模型选择重新表述为贝叶斯优化问题——用高斯过程对"模型 → 在线性能"这个黑盒函数建模。

核心设计是模型诱导核(model-induced kernel):基于候选模型预测的相似度构造 GP 先验,以采集函数(acquisition function)指导仅需约 1%–2.5% 在线交互的主动评估。

注意:BOMS 和边际似然是互补但不同的工具——前者通过稀疏在线交互估计模型质量,后者通过对参数的积分直接衡量模型结构与离线数据的匹配程度。两者都能解决模型选择问题,但假设和代价不同。


五、贝叶斯逆强化学习:奖励结构的边际似然比较

IRL 从专家演示 D demo \mathcal{D}_{\text{demo}} Ddemo 反推奖励函数。贝叶斯 IRL(Ramachandran & Amir, 2007)将其表述为后验推断:

p ( R ∣ D demo ) ∝ p ( D demo ∣ R )   p ( R ) p(R \mid \mathcal{D}_{\text{demo}}) \propto p(\mathcal{D}_{\text{demo}} \mid R)\, p(R) p(RDdemo)p(DdemoR)p(R)

似然函数通常假设 Boltzmann 理性(专家以 softmax 方式选择近似最优动作):

p ( D demo ∣ R ) = ∏ t exp ⁡ ( β ⋅ Q R ( s t , a t ) ) ∑ a ′ exp ⁡ ( β ⋅ Q R ( s t , a ′ ) ) p(\mathcal{D}_{\text{demo}} \mid R) = \prod_t \frac{\exp(\beta \cdot Q^R(s_t, a_t))}{\sum_{a'} \exp(\beta \cdot Q^R(s_t, a'))} p(DdemoR)=taexp(βQR(st,a))exp(βQR(st,at))

边际似然此处扮演奖励假设的评判尺度:比较不同奖励结构哪个更能解释专家行为。

5.1 奖励结构的模型比较

B F = p ( D demo ∣ M R 1 ) p ( D demo ∣ M R 2 ) = ∫ p ( D ∣ R )   p ( R ∣ M R 1 )   d R ∫ p ( D ∣ R )   p ( R ∣ M R 2 )   d R BF = \frac{p(\mathcal{D}_{\text{demo}} \mid \mathcal{M}_{R_1})}{p(\mathcal{D}_{\text{demo}} \mid \mathcal{M}_{R_2})} = \frac{\int p(\mathcal{D} \mid R)\,p(R \mid \mathcal{M}_{R_1})\,dR}{\int p(\mathcal{D} \mid R)\,p(R \mid \mathcal{M}_{R_2})\,dR} BF=p(DdemoMR2)p(DdemoMR1)=p(DR)p(RMR2)dRp(DR)p(RMR1)dR

奖励假设 数学形式 先验偏好 代表场景
线性奖励 R ( s ) = ϕ ( s ) ⊤ w R(s) = \phi(s)^\top w R(s)=ϕ(s)w 稀疏权重先验 特征工程明确的任务
非线性奖励 神经网络 R θ ( s ) R_\theta(s) Rθ(s) 层权重正则化 高维观测(图像)
稀疏奖励 R ( s ) = 1 [ s = s ∗ ] R(s) = \mathbb{1}[s = s^*] R(s)=1[s=s] 点质量先验 目标明确的终局任务
Dense reward R ( s ) = − ∣ s − s ∗ ∣ R(s) = -|s - s^*| R(s)=ss 势函数 连续高斯先验 需要快速反馈的连续控制
风险敏感奖励 E [ R ] − λ   Var [ R ] \mathbb{E}[R] - \lambda\,\text{Var}[R] E[R]λVar[R] λ \lambda λ 上的先验 医疗、安全关键场景
多专家混合 p ( R ) = ∑ k π k N ( R ; μ k , Σ k ) p(R) = \sum_k \pi_k \mathcal{N}(R;\mu_k, \Sigma_k) p(R)=kπkN(R;μk,Σk) Dirichlet 混合权重 异质行为策略

5.2 贝叶斯 IRL 文献

论文 年份 核心贡献 边际似然角色 链接
Ramachandran & Amir 2007 奠基性贝叶斯 IRL 框架 后验推断奖励函数 IJCAI 2007
Scalable Bayesian IRL 2021 GP 近似 Q,降低 MDP 求解开销 边际似然近似 OpenReview
Robust Bayesian IRL 2024 同时推断奖励函数 + 环境动力学 对动力学误差鲁棒 arXiv:2309.08571
Bayesian IRL for Non-Markovian Rewards 2024 奖励机(Reward Machine)扩展 历史增广后的后验 arXiv:2406.13991
AVA (LLM Alignment) 2024 变分贝叶斯 IRL 对齐 LLM ELBO 近似 arXiv:2411.09341
Distributional IRL 2025 随机奖励信号的分布式 IRL 分布式边际似然 arXiv:2510.03013

六、边际似然估计方法汇总

四个方向的共同挑战是边际似然的计算。以下整理常见估计方法,精度以"相对于精确解析解"来衡量。

方法 适用场景 相对精度 计算代价 实现 / 论文
LOOIC / WAIC 层级贝叶斯行为模型 预测准确度替代 低(后处理) R loo
Bridge Sampling 中等维度认知/RL 模型 R bridgesampling · 教程
Warp-III Bridge 高维层级模型、非嵌套 论文代码
重要性采样(IS) 低维模型,快速估计 低–中 Gronau et al. 2020
Laplace 近似 深度模型快速近似 低–中 laplace-torch
共轭解析(GLiBRL) GLM 结构模型 精确 极低 arXiv:2512.20974
Thermodynamic Integration 高维复杂模型 Stan / PyMC
SGLD / SGHMC 大规模深度模型 近似 中–高 tensorflow-probability
Bridge Sampling Diagnostics 评估估计可靠性 —(诊断) arXiv:2508.14487

七、四个方向横向比较

维度 行为模型比较 贝叶斯元 RL 离线 RL 模型选择 贝叶斯 IRL
边际似然的角色 比较准则 训练目标 证据权重 奖励假设评判
数据规模 小(百次试验) 大(多任务轨迹) 大(离线数据集) 中(专家演示)
计算可追踪性 中(bridge sampling) 困难(GLiBRL 例外) 困难(Laplace/BO) 困难(MDP 求解)
主要工具 hBayesDM, Stan VariBAD, GLiBRL BOMS, 模型集成 BIRL, scalable BIRL
可解释性 极强(认知参数) 中(任务编码) 中(动力学模型) 强(奖励结构)
应用场景 临床/神经科学 机器人快速适应 医疗/推荐系统 人机协作/模仿
代表开源项目 hBayesDM varibad BOMS Scalable BIRL

八、参考文献与开源资源速查

工具包

工具 语言 功能 链接
hBayesDM R / Python 层级贝叶斯 RL 行为模型 + LOOIC/WAIC GitHub
bridgesampling R Bridge sampling 估计边际似然 CRAN
loo R LOOIC / WAIC / PSIS 计算 mc-stan.org/loo
ActionModels.jl Julia Rescorla-Wagner 等认知模型 文档
pymdp Python Active Inference / FEP 实现 GitHub
varibad Python VariBAD Meta-RL 基线 GitHub
Bayesian_model_comparison Python Lotfi et al. 边际似然与泛化复现 GitHub
Laplace Python 神经网络 Laplace 近似边际似然 GitHub
FEP_Active_Inference_Papers Active Inference 文献索引 GitHub

核心论文

论文 发表 链接
Ahn et al. hBayesDM Computational Psychiatry 2017 PMC5869013
Gronau et al. Bridge Sampling Tutorial J. Math. Psychology 2017 arXiv:1703.05984
Gronau et al. IS for Marginal Likelihood Behavior Research Methods 2020 arXiv:1906.06020
Warp-III Bridge Sampling Behavior Research Methods 2019 Springer
Bridge Sampling Diagnostics arXiv 2025 arXiv:2508.14487
Zintgraf et al. VariBAD ICLR 2020 arXiv:1910.08348
GLiBRL arXiv 2025 arXiv:2512.20974
Bayesian Meta-RL with Laplace RLJ / RLC 2025 rlj.cs.umass.edu
Lotfi et al. ML & Generalization ICML 2022 Outstanding Paper arXiv:2202.11678
BOMS Offline Model Selection arXiv 2025 arXiv:2502.11480
Robust Bayesian IRL arXiv 2024 arXiv:2309.08571
Bayesian IRL Non-Markovian arXiv 2024 arXiv:2406.13991
Distributional IRL arXiv 2025 arXiv:2510.03013
AVA LLM Alignment via BIRL arXiv 2024 arXiv:2411.09341
Active Inference in Psychiatry Entropy 2024 PMC11507080
Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐