深度强化学习与控制学习笔记（一）-----强化学习与马尔可夫决策过程

Levyyy

349人浏览 · 2026-05-18 00:48:57

Levyyy · 2026-05-18 00:48:57 发布

一、学习内容概述

本节课程主要围绕强化学习的基本思想、智能体与环境的交互机制、探索与利用问题、多臂老虎机问题、马尔可夫决策过程以及值迭代和策略迭代展开。通过本节课学习，我对强化学习与传统的监督学习、无监督学习之间的区别有了更清晰的认识，同时也了解了马尔可夫决策过程这一强化学习的重要数学框架。

监督学习：使用有标签的数据来训练模型，学习输入与目标输出之间的映射关系

无监督学习：训练数据没有标签（只有输入），让机器自主发觉数据的内在结构

强化学习：智能体在环境中不断采取行动，通过环境反馈的奖励来调整自身策略，最终目标是在长期时间范围内最大化累积奖励，可以概括为“agent在交互中学习”。

二、强化学习的基本思想

强化学习的基本结构包括智能体、环境、观察、动作和奖励。智能体在每个时刻接收来自环境的观察和奖励，然后根据当前策略选择动作；环境接收动作后，转移到新的状态，并给出下一时刻的观察与奖励。这一过程不断循环，形成序贯决策过程。

其中， $s_i$ 表示agent在i时刻的状态， $a_i$ 表示agent在i时刻采取的动作（policy决定）， $r_i$ 表示agent获得的奖励（env给的）.

强化学习是agent在与动态环境交互时不断产生新数据。故不同策略会导致不同的交互轨迹，因此强化学习中的数据分布会受到智能体行为本身的影响。

三、强化学习系统的核心要素

状态（state）：状态是对历史信息的压缩表达，是一种用于确定接下来会发生的事情的信息，是关于历史的函数 $S_t = f(H_t)$
策略（policy）：表示智能体在某一状态下如何选择动作。确定性策略可以表示为：

确定性策略可以表示为：

$a = \pi(s)$ ，

即在状态 s 下直接选择动作 a。随机策略可以表示为：

$\pi(a \mid s)=\mathbb{P}(A_t=a \mid S_t=s)$

即在状态 s 下以一定概率选择动作 a

奖励：环境对智能体行为的即时评价，是强化学习目标的直接体现。奖励告诉智能体“当前行为好不好”，但并不一定能直接反映长期效果。
价值函数：价值函数用于衡量状态或状态—动作对的长期好坏程度。与即时奖励相比，价值函数考虑的是未来累积奖励。例如动作价值函数可以写为：

$Q^\pi(s,a)=\mathbb{E}_\pi[R_{t+1}+\gamma R_{t+2}+\gamma^2R_{t+3}+\cdots \mid S_t=s,A_t=a]$

γ 是折扣因子，用于控制未来奖励的重要程度。折扣因子越接近 1，智能体越重视长期收益；折扣因子越接近 0，智能体越重视当前收益。

环境模型：环境模型用于描述状态转移和奖励产生机制，通常包括状态转移概率和奖励函数：

$P^a_{ss'}=\mathbb{P}(S_{t+1}=s' \mid S_t=s,A_t=a)$

$R^a_s=\mathbb{E}[R_{t+1} \mid S_t=s,A_t=a]$

如果已知环境模型，就可以利用动态规划方法进行值迭代或策略迭代；如果环境模型未知，则需要通过采样、试错和学习来估计价值或策略。

四、多臂老虎机

多臂老虎机问题引出强化学习中"探索与利用"的关系。多臂老虎机可以看成一种没有状态转移的简化强化学习问题。智能体每次从多个动作中选择一个动作，并得到一个随机奖励。目标是在有限时间内最大化累积奖励。

动作价值可以通过采样平均估计：

$Q(a_i)=\frac{1}{N(a_i)}\sum_{t=1}^{T} r_t \cdot \mathbf{1}(a_t=a_i)$

增量更新形式（更节省存储空间）：

$Q(a)\leftarrow Q(a)+\frac{1}{N(a)}[r_t-Q(a)]$

这说明每次获得新奖励后，只需要利用旧估计值、当前奖励和采样次数即可更新动作价值。衡量多臂老虎机算法效果的一个重要指标是 Regret，即实际选择动作与最优动作之间的收益差。若一个算法长期选择次优动作，Total Regret 会随时间线性增长。理想情况下，算法应在早期进行适当探索，后期逐渐稳定到较优动作，使 Total Regret 的增长尽可能慢。多臂老虎机中理论渐近最优 regret 为 $O(\log T)$ ，而 ϵ-greedy 等方法是常用的探索策略。

五、常见的探索策略

贪心策略：贪心策略始终选择当前估计价值最大的动作：

$a^*=\arg\max_a Q(a)$

它的优点是简单，缺点是容易因为早期估计不准而陷入局部最优。

ϵ-greedy 策略：该策略以 1−ϵ 的概率选择当前估计最优动作，以 ϵ 的概率随机选择动作。这样既能利用已有经验，也能保留一定探索能力。但是如果 ϵ 为常数，智能体即使已经学到较优动作，仍然会持续随机探索，因此 Total Regret 仍可能线性增长。
衰减 ϵ-greedy 策略。该策略让 ϵ 随时间逐渐减小，前期多探索，后期多利用。这更符合学习规律，但难点在于如何设计合适的衰减速度。衰减过快可能探索不足，衰减过慢则会降低长期收益。
乐观初始化：该方法给所有动作一个较高的初始价值估计，使智能体倾向于尝试尚未充分探索的动作。随着采样次数增加，初始偏差会逐渐减弱。乐观初始化的优点是能够鼓励探索，但仍然可能在复杂问题中陷入局部最优。

六、马尔可夫过程与马尔可夫决策过程

随机过程描述随机系统随时间演化的规律。若一个过程满足“未来只与当前状态有关，而与过去历史无关”，则称其具有马尔可夫性质：

$\mathbb{P}(S_{t+1} \mid S_t)=\mathbb{P}(S_{t+1} \mid S_1,\cdots,S_t)$

这句话可以理解为：在当前状态已知的条件下，过去的信息对预测未来不再提供额外帮助。当前状态是未来的充分统计量。

马尔可夫决策过程：

即 MDP，是强化学习中最重要的数学模型之一。MDP 用来描述结果部分随机、部分受决策者控制的序贯决策过程。一个 MDP 通常由五元组表示：

$(S,A,P,\gamma,R)$

其中，S是状态合集，R是动作合集，P是状态转移概率，r是折扣因子，R是奖励函数。MDP 假设环境完全可观测，即当前状态能够完整表征决策过程。课件强调，MDP 为强化学习提供了数学框架，建模了随机决策过程与因果关系。

在 MDP 中，智能体从初始状态 S0 出发，选择动作 a0，获得奖励 R(s0,a0)，然后环境根据转移概率进入下一状态 s1。这个过程持续进行，最终形成一条状态—动作—奖励序列。智能体的目标是最大化折扣累积奖励：

$R(s_0)+\gamma R(s_1)+\gamma^2R(s_2)+\cdots$ （此公式为奖励只与状态有关）

七、价值函数与 Bellman 等式

给定一个策略 π，状态价值函数定义为从状态 s 出发并按照策略 π 行动所能获得的期望折扣累积奖励：

$V^\pi(s)=\mathbb{E}[R(s_0)+\gamma R(s_1)+\gamma^2R(s_2)+\cdots \mid s_0=s,\pi]$

Bellman 等式将长期价值分解为“当前奖励 + 折扣后的下一状态价值”：

$V^\pi(s)=R(s)+\gamma\sum_{s'\in S}P_{s\pi(s)}(s')V^\pi(s')$

此公式！！！重要，它把一个长期决策问题转化为递推计算问题。也就是说，一个状态的价值可以通过当前奖励和后继状态价值来计算。

最优价值函数定义为所有策略中能够获得的最大状态价值：

$V^*(s)=\max_\pi V^\pi(s)$

对应的最优 Bellman 等式为：

$V^*(s)=R(s)+\max_{a\in A}\gamma\sum_{s'\in S}P_{sa}(s')V^*(s')$

最优策略则可以通过选择使后继状态价值最大的动作得到：

$\pi^*(s)=\arg\max_{a\in A}\sum_{s'\in S}P_{sa}(s')V^*(s')$

这说明，只要能够求出最优价值函数，就可以进一步得到最优策略。

八、值迭代与策略迭代

在状态空间和动作空间有限的情况下，可以用表格存储价值函数和策略，并基于 Bellman 等式进行迭代更新。

值迭代：直接对价值函数进行贪心更新。其基本步骤是：

对每个状态 s，初始化 $V(s)=0$ ；

重复更新每个状态的价值，直到收敛： $V(s)=R(s)+\max_{a\in A}\gamma\sum_{s'\in S}P_{sa}(s')V(s')$

值迭代的特点是更新过程中没有显式维护一个固定策略，而是直接向最优价值函数逼近。课件指出，价值迭代是贪心更新法，对于空间较大的 MDP 更实用，效率也更高。

策略迭代：包括策略评估和策略改进两个步骤。首先随机初始化策略 π，然后重复执行：

策略评估：计算当前策略对应的价值函数 $V^\pi(s)$

策略改进：根据当前价值函数更新策略： $\pi(s)=\arg\max_{a\in A}\sum_{s'\in S}P_{sa}(s')V(s')$

策略迭代的优点是在小规模 MDP 中通常收敛较快，但缺点是每次策略评估都需要计算价值函数，代价可能较大。

二者比较：小规模 MDP 中策略迭代通常很快；大规模 MDP 中价值迭代更实用；如果没有状态转移循环，最好使用价值迭代。

九、个人理解与总结

通过本节学习，我认为强化学习的核心可以概括为三个关键词：交互、试错、长期收益。监督学习更像是在已有数据中寻找输入与输出之间的映射关系，而强化学习更像是在一个动态系统中不断做决策，并根据结果修正行为方式。因此，强化学习不仅关心“当前动作是否正确”，更关心“这一动作是否有助于长期目标”。

探索与利用问题让我认识到，强化学习并不是简单地选择当前最优动作。由于智能体对环境的了解一开始并不充分，如果过早相信当前估计，就可能错过更优策略。因此，适当探索是必要的。但探索本身也有代价，所以如何平衡探索与利用，是强化学习算法设计中的关键问题。

马尔可夫决策过程则为强化学习提供了一个清晰的数学框架。通过状态、动作、转移概率、奖励和折扣因子，可以把复杂的序贯决策问题形式化。Bellman 等式进一步揭示了长期价值的递推结构，使得值迭代和策略迭代成为可能。

本节课也让我意识到，后续深度强化学习的基础仍然是这些基本概念。即使使用深度神经网络近似价值函数或策略函数，本质上仍然是在解决“如何估计价值、如何改进策略、如何最大化长期奖励”的问题。因此，理解 MDP、价值函数、Bellman 等式、值迭代和策略迭代，是继续学习 DQN、Actor-Critic、DDPG 等深度强化学习算法的重要基础。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

基于模型预测控制的波浪能转换器（WEC）研究（Matlab代码实现）

本文模拟从波浪能转换器（WEC）中提取的能量，当受控移动窗口阻塞 MPC 时，单设备。它还比较了使用标准MPC和GPC控制时WEC提取的能量。摘要：海浪能是可再生能源最集中的来源之一。然而，到目前为止，它还没有达到商业化所需的经济可行性。为了提高波浪能转换器的效率，已经提出了几种先进的控制策略，包括模型预测控制（MPC）。然而，每个优化问题的计算负担都是传统（全自由度）MPC的缺点，这通常会

AtomGit开源社区

三方物流平台（3PL）-智慧物流综合服务平台方案

当前第三方物流、同城配送、干线零担、仓储托管、供应链仓配一体化行业普遍存在业务分散、系统割裂、手工记账、调度低效、对账困难、货主管控弱、数据不通等行业痛点。传统线下运营模式成本高、出错率高、管控难度大，无法满足现代物流数字化、智能化、集约化发展需求。本项目基于开源整套源码架构，搭建一体化智慧物流综合服务平台，整合订单、仓储、运输、财务结算、装卸作业、客户管理、司机管理、智能调度、电子面单、溯源追踪