强化学习3.2：表格求解法——蒙特卡罗方法

SteveSenna

553人浏览 · 2026-01-20 11:34:59

SteveSenna · 2026-01-20 11:34:59 发布

定义

直接从与环境的完整交互经验中学习价值函数和最优策略的重要方法

核心思想

通过完整回合采样的平均回报来估计状态 / 动作价值函数，进而优化策略

构造随机过程：将实际问题转化为某种随机分布的参数（如均值、概率）
大量采样：通过计算机生成成千上万个符合要求的随机样本
统计推断：对样本结果求平均值或频率，作为问题的近似解

核心公式

状态价值函数估计：，其中Gi(s)是第 i 个 episode 中状态 s 后的回报，N 是包含 s 的 episode 数量
回报：，为折扣因子 (0≤≤1)

核心特点

无模型学习：无需环境模型 (P 和 R)，直接从经验中学习
完整轨迹依赖：必须等待整个episode结束才能计算回报并更新价值
采样平均估计：价值函数是真实回报的无偏估计，方差随样本数量增加而减小
通用性强：适用于任意马尔可夫决策过程 (MDP)，无需马尔可夫性假设

蒙特卡罗策略评估

在给定策略π下，准确估计其状态价值函数或动作价值函数

方法	定义	特点	收敛性
首次访问	仅在每个 episode 中首次访问状态 s 时，用该 episode 回报更新Vπ(s)	无偏估计，方差较小	当访问次数→∞时，收敛到Vπ(s)
每次访问	在每个 episode 中每次访问状态 s 时，都用该 episode 回报更新Vπ(s)	无偏估计，方差较大	同样收敛到Vπ(s)，但收敛速度可能不同

首次访问 MC 策略评估伪代码：

# 初始化
V = {s: 0 for s in 所有状态}  # 状态价值函数
Returns = {s: [] for s in 所有状态}  # 存储每个状态的回报列表

# 循环直至收敛
for 每个episode in 足够多的episodes:
    生成遵循策略π的完整轨迹: S₀,A₀,R₁,S₁,A₁,R₂,...,S_T(终止状态)
    计算每个时间步t的回报G_t
    对于轨迹中每个状态S_t:
        if S_t 未在当前episode的更早时间步出现:
            将G_t添加到Returns[S_t]
            V[S_t] = Returns[S_t]的平均值  # 或增量更新: V[S_t] += (G_t - V[S_t])/len(Returns[S_t])

算法流程

1.输入：待评估的策略 π

2.初始化：

初始化价值函数 $V(s)$ 或 $Q(s, a)$ （通常为0）
初始化每一个状态的累计回报列表 $Returns(s)$ ，用于存放状态s的所有历史回报值

3.循环（生成大量回合）：

使用策略π与环境交互，生成一个完整的回合轨迹：
初始化回报 G=0
从回合的最后一步向前遍历，计算每个时刻的折扣回报 $G_t$ ： $G_t = R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + \dots$
如果St 是首次出现在本回合中：
- 在一次轨迹中，只在第一次经过状态 $s$ 时记录并计算 $G_t$ 追加到 $Returns(S_t)$ 中
- 更新价值函数：
每次访问：只要状态 $s$ 出现，就记录并计算一次。这会引入一定的偏置，但在样本量大时会收敛到相同结果

蒙特卡罗策略改进

目标：找到最优策略 π∗。

广义策略迭代框架：评估当前策略→改进策略→重复直至收敛

策略评估：使用蒙特卡罗方法评估当前策略 π下的 $Q(s, a)$
策略改进：根据 $Q(s, a)$ 通过贪心算法更新策略：

1.蒙特卡罗探索开始 (MC ES)

强制每个回合从随机的状态-动作对开始，并保证每个状态-动作对都有非零概率被访问到

MC ES 伪代码：

# 初始化
Q = {(s,a): 0 for s in 所有状态 for a in 所有动作}  # 动作价值函数
Returns = {(s,a): [] for s in 所有状态 for a in 所有动作}  # 状态-动作对回报列表
π = {s: 随机选择动作 for s in 所有状态}  # 初始随机策略

# 循环直至收敛
for 每个episode in 足够多的episodes:
    随机选择起始状态-动作对(S₀,A₀)，保证所有(s,a)有非零概率被选中
    生成完整轨迹: S₀,A₀,R₁,S₁,A₁,R₂,...,S_T
    计算每个时间步t的回报G_t
    对于轨迹中每个(S_t,A_t):
        if (S_t,A_t)未在当前episode更早时间步出现:
            将G_t添加到Returns[(S_t,A_t)]
            Q[(S_t,A_t)] = Returns[(S_t,A_t)]的平均值
            # 策略改进：对当前Q值贪心
            π[S_t] = argmax_a Q[(S_t,a)]

2.无探索开始的MC控制

如果智能体总是遵循当前最优的策略（纯贪心），那么它可能永远不会尝试那些看起来“暂时不好”但实际上“潜力巨大”的动作

同轨 (on-policy) 控制：学习和执行同一个策略（如ε- 贪心策略）
离轨 (off-policy) 控制：学习目标策略(如贪心策略)，同时执行行为策略(如 ε- 贪心策略) 进行探索，需使用 “重要性采样 “校正偏差

$\epsilon$ -贪心策略

我们不强制要求从每个状态动作对开始，而是要求策略在任何时候都以 $\epsilon$ 的概率进行“随机探索”

以 $1 - \epsilon$ 的概率选择当前 $Q(s, a)$ 最大的动作
以 $\epsilon$ 的概率在所有动作中随机选择（包括那个最大的）

ε- 贪心同轨 MC 控制伪代码：

# 初始化
Q = {(s,a): 0 for s,a in 所有状态-动作对}
Returns = {(s,a): [] for s,a in 所有状态-动作对}
π = ε-贪心策略初始化(基于Q)

for 每个episode:
    生成遵循π的完整轨迹: S₀,A₀,R₁,S₁,A₁,...,S_T
    计算G_t
    对于每个(S_t,A_t):
        if (S_t,A_t)首次出现:
            添加G_t到Returns[(S_t,A_t)]
            Q[(S_t,A_t)] = 平均值
            # 更新ε-贪心策略
            π[S_t] = 以1-ε概率选择argmax_a Q(S_t,a)，以ε概率随机选择动作

行为策略 (Behavior Policy, $b$ )：用来产生数据的策略。它必须是具备探索性的（如完全随机或 $\epsilon$ -贪心）

目标策略 (Target Policy, $\pi$ )：我们要学习的最优策略。它可以是纯贪心的。

算法流程对比

特性	探索性初始化 (ES)	同策略 (ϵ-greedy)	离策略 (Off-policy)
对起始要求	覆盖所有 $s, a$	无要求	无要求
策略类型	学习确定性策略	学习“软”策略	学习确定性策略
采样策略	当前策略 $\pi$	当前策略 $\pi$ (带噪声)	独立的探索策略 $b$
收敛目标	最优策略 $\pi^*$	近似最优的软策略	最优策略 $\pi^*$

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

人员异常行为检测YOLO格式检测数据集

AtomGit开源社区

如果 HTML 成为大模型标准输出格式，训练体系需要怎么变？

摘要随着AI代理系统越来越多地采用HTML作为标准输出格式，大模型训练体系面临根本性变革。评估指标需新增渲染正确性、视觉质量等维度；训练数据需从互联网低质量HTML转向语义化、响应式的高质量代码；对齐方法需升级标注员能力并开发AI评估工具；Tokenizer需优化HTML编码效率；模型架构可能演进为专用HTML生成器或多模态闭环系统。这一转变将重塑从数据准备到模型评估的整个训练流程，并可能最终影

AtomGit开源社区

AI Native 应用的 UI 层该怎么设计？从 AG-UI 到 Agent 直出 HTML 的思考

AI Native 应用的 UI 层设计正处于一个关键的分叉点。AG-UI 和 A2UI 代表的结构化协议路线提供了安全性、一致性和跨平台能力，Agent 直出 HTML 路线提供了灵活性和无限表达力。三者并非对立，而是服务于不同场景的互补方案。未来最可能的演进方向是分层融合：固定框架提供稳定性，结构化协议（AG-UI/A2UI）处理标准交互和跨平台需求，沙箱 HTML 释放 Agent 的全部表