目录

1 概念

1.1 强化学习(Reinforcement Learning, RL)

1.2 深度强化学习(Deep Reinforcement Learning, DRL)

2 主流算法

2.1 PPO(Proximal Policy Optimization)

2.2 SAC(Soft Actor-Critic)

3 典型应用

(1)机器人与具身智能

(2)自动驾驶

(3)大语言模型对齐

(4)游戏与虚拟环境

4 现状与挑战

1 概念

1.1 强化学习(Reinforcement Learning, RL)

       强化学习是机器学习的一个重要分支。它模仿人类和动物通过“试错(Trial and Error)”与环境交互的学习机制。智能体(Agent)在特定的环境(Environment)中,根据当前的状态(State)做出动作(Action),环境会给出反馈——奖励或惩罚(Reward)。智能体的目标是通过不断尝试,找到一个最优策略(Policy),使得长期累积的奖励最大化。

1.2 深度强化学习(Deep Reinforcement Learning, DRL)

       传统的强化学习在面对高维、连续的状态空间(如像素图像、复杂的机器人关节数据)时,容易遭遇“维度灾难”。深度强化学习(DRL)将深度学习(DL)的感知能力与强化学习(RL)的决策能力相结合。利用深度神经网络来逼近价值函数(Value Function)或策略,从而能够直接处理海量的原始输入,实现端到端(End-to-End)的感知与控制。

2 主流算法

Actor-Critic (AC框架):PPO (Proximal Policy Optimization)、SAC

基于策略梯度 (Policy-Based):REINFORCE、TRPO

基于值函数 (Value-Based):DQN (Deep Q-Network)

基于模型 (Model-Based):World Models, MuZero

2.1 PPO(Proximal Policy Optimization)

       运动控制与步态的主力算法,PPO是同策略(On-Policy)算法。

       应用于足式机器人(四足/双足人形)的无感知识别(Blind Locomotion)、复杂地形过渡、粗糙地面行走等。

       虽然它极度消耗数据(样本效率低),但在Isaac Lab/Isaac Gym等大规模并行仿真环境中,数据采集的成本几乎为零。PPO最大的优势是极度稳定、调参友好、不易崩溃。配合大规模并行仿真,PPO能够非常稳健地刷出高难度的机器人运动技巧,是Sim-to-Real(仿真到现实迁移)落地成功率最高的方案。

2.2 SAC(Soft Actor-Critic)

       高维操纵与高效微调的利器。

       应用于机械臂抓取、灵巧手(Dexterous Hands)的高维复杂操纵、真实机器人上的在线微调(On-Robot Fine-tuning)。

       SAC是异策略(Off-Policy)算法。它引入了最大熵机制(Maximum Entropy),探索能力极强。在状态和动作维度极高的任务中(比如控制一只拥有 20 多个自由度的灵巧手),PPO 经常会因为找不到奖励而陷入局部最优,而SAC能更好地探索。此外,因为有Replay Buffer(经验回放池),SAC的样本效率远高于PPO,更适合在真机上进行微调。

3 典型应用

(1)机器人与具身智能

       用于机械臂的复杂物体抓取、四足/双足机器人的步态控制与仿生行走,以及机器人在未知非结构化环境中的自主导航与巡检。

(2)自动驾驶

       在模拟和真实世界中,DRL被用于复杂的决策生成,如车道保持、换道决策、避障以及在拥堵十字路口的路径规划。

(3)大语言模型对齐

       目前最火热的应用之一,通过基于人类反馈的强化学习(RLHF)基于AI反馈的强化学习(RLAIF),微调大语言模型(如 ChatGPT、Claude),使其输出更符合人类的价值观和安全约束。

(4)游戏与虚拟环境

        从击败围棋世界冠军的AlphaGo,到大红大紫的AlphaZero,再到在《星际争霸2》、《Dota 2》等复杂多智能体游戏中达到职业顶尖水平的AI。

4 现状与挑战

       深度强化学习已经从纯粹的“游戏通关工具”走向实业落地(Real-world Deployment)大模型生态结合。在工业控制、高精尖硬件校准、以及大模型安全对齐中发挥着不可替代的作用。学术界和工业界正逐步将目光投向离线强化学习(Offline RL)与安全强化学习(Safe RL),试图让AI在不与现实世界直接发生危险交互的情况下学到最优策略。

       挑战,样本效率低 (Sample Inefficiency):通常需要数百万甚至数十亿次迭代才能学会一个简单的任务,这在真实物理世界(如昂贵的机器人硬件上)成本极高。因此Sim-to-Real (从仿真到真实世界迁移) 成了核心研究方向。安全性与鲁棒性 (Safety & Robustness):训练初期的“试错”可能会导致物理硬件的损坏或发生安全事故(例如自动驾驶撞车或机器人摔毁)。泛化能力弱 (Weak Generalization):在特定迷宫或环境中训练出的模型,一旦环境发生细微改变(如光照、地形微调),其性能可能会断崖式下跌。

具身RL发展:

       现在很少直接用PPO/SAC从零开始让机器人摸索复杂任务。标准的范式变成了:先通过模仿学习(Imitation Learning,如Diffusion Policy、VLA大模型)快速让机器人获得基础的动作能力,然后再用RL(PPO/SAC)作为“打磨工具”进行后训练。 专门用来训练机器人的跌倒恢复、滑移抓取、应对外界扰动等边缘情况(Edge Cases)。

       过去SAC很难配合Isaac Lab/Isaac Gym这种上千个环境的并行大Batch训练(容易外推误差过大、崩溃)。但最近一两年的技术突破(如最新提出的FlashSAC等魔改版本)通过引入超大Replay Buffer(10M+)和高吞吐架构,成功把SAC推向了大规模并行仿真。在灵巧手和人形机器人控制上,这类新型异策略算法正在以十倍的训练速度超越传统PPO。

        模仿学习与强化学习融合。诸如DSRL(Diffusion Steering via RL)等技术,将扩散模型(Diffusion Policy)强大的多峰轨迹建模能力,与SAC优秀的离策优化相结合——保持基础轨迹由Diffusion生成,而用一个轻量化的SAC智能体在潜空间(Latent Space)施加扰动和引导,既保留了模仿学习的泛化性,又具备了RL的实时纠错能力。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐