📘《SimpleVLA-RL》学习笔记
📘《SimpleVLA-RL》学习笔记
1. 研究背景与问题动机
1.1 Vision-Language-Action(VLA)模型的发展背景
VLA 模型旨在使用统一网络完成三类能力:
- 视觉理解(Vision)
- 语言理解(Language Instructions)
- 机器人动作生成(Action Generation)
它们是现代通用机器人系统(Generalist Robots)的核心,如
Octo、OpenVLA、π0、RDT 等。
这些模型通常采用两阶段训练:
- 多模态大规模预训练(视频、图文、轨迹数据)
- 大量真实机器人示教数据的 SFT(supervised fine-tuning)
1.2 现存瓶颈
(1)示教数据稀缺且昂贵
采集真实机器人轨迹需要:
- 专业人员
- 高成本硬件
- 一个任务采几百条轨迹
→ 显著限制 SFT 的可扩展性。
(2)泛化能力差
在:
- 新物体
- 新布局
- 新任务组合
- 长时序任务
中性能显著下降。
(3)RL 在机器人领域难用
尽管 DeepSeek-R1 显示 RL 能显著提升“推理能力”,
但在 VLA 中 RL 存在难点:
- 需要环境交互(昂贵)
- 传统 RL 依赖人工 reward shaping(不通用)
- 演化式策略生成不同轨迹难度大
⚡论文动机
能否像 DeepSeek-R1 一样,只用简单的二值结果奖励(0/1),让 VLA 在环境中自我探索,通过 RL 大幅提升动作规划与泛化能力?
论文提出——
SimpleVLA-RL:一个极简但高效的 VLA 在线强化学习框架
2. 方法核心思想(One Sentence Summary)
用“多样化采样 + 全程环境交互 + 二值任务奖励 + GRPO”训练 VLA,使其通过 RL 发现超出示教数据之外的解决策略,从而提升长时序规划能力与泛化性。
3. 方法结构拆解
3.1 交互式 VLA Rollout:从 LLM 生成到机器人环境交互
不同于 LLM 的纯文本自回归,
VLA RL 必须进行 闭环环境交互:
流程:
- 根据当前 observation(图像 + 语言 + 本体信息)
- 生成一段 action chunk(如 8 个动作)
- 将 chunk 依次执行
- 获取新的 observation
- 重复直到结束或失败
难点:动作序列的多样化比文本难得多。
论文采用 action tokenization(类似 LLM token)
→ 使得每一步生成分布(probabilities),从而允许随机采样用于 RL。
3.2 简单但强大的 Reward:0/1 二值 Outcome Reward
奖励函数极其简单:
- 成功:整条轨迹所有 token reward = 1
- 失败:全部 = 0
没有 shaping
没有距离奖励
没有过程奖励
→ 和 DeepSeek-R1 非常一致
→ 极大提升通用性与可扩展性
3.3 三大探索增强机制(exploration enhancements)
论文指出:VLA 要想通过 RL 学到新策略,需要更强探索。
三项关键改进:
(1)Dynamic Sampling
如果同一个 prompt 的多个采样轨迹全部成功或失败 → 优势 A_i = 0 → 无梯度
因此:
丢弃全成功/全失败的组,只保留成功/失败混合的组
确保梯度始终有效。
(2)Clip-Higher(来自 DAPO)
PPO clipping 上界从 1.2 → 1.28
允许低概率动作更容易被提升 → 增强探索。
(3)更高采样温度
T = 1.0 → 1.6
→ 显著增加动作序列多样性。
三者结合带来约 10 ~ 15% 提升。
3.4 训练目标:GRPO(无 Value Function、稳定高效)
论文采用 Group Relative Policy Optimization (GRPO),特点:
- 不需要 value model
- 只需要比较 group 内 reward
- 算法稳定、简单
- KL regularization 被完全移除(进一步增强探索)
4. 实验结果总结
论文在 3 个主流模拟基准和真实机器人上验证:
4.1 LIBERO(单臂)
从 91.0% → 99.1%(+8.1%)
各子任务均达到 SOTA。
特别是长时序 LIBERO-Long:
86.5% → 98.5%(+12%)
4.2 RoboTwin 1.0(双臂)
平均:39.8% → 70.4%(+30.6%)
4.3 RoboTwin 2.0(双臂,更复杂)
平均:38.3% → 68.8%(+30.5%)
在所有 12 个任务(短、中、长、超长)都有显著提升。
4.4 真实机器人(Sim2Real)
平均提升:
17.5% → 38.5%(+21%)
关键任务如 Stack Bowls 达到 70%,优于 RDT(60%)。
5. 深度分析(Insights)
5.1 RL 显著缓解数据稀缺(Data Scarcity)
惊人实验:
| Setting | Avg SR |
|---|---|
| One-Trajectory SFT(每任务仅 1 条数据) | 48.9% |
| One-Trajectory SFT + RL | 96.9% |
| Full SFT(500 条) | 91.0% |
→ RL 甚至可以用 1 条 SFT 轨迹超过 500 条数据 SFT
→ 对机器人训练的意义极大(降低示教成本)
5.2 RL 获得更强泛化能力
SFT 在 unseen tasks 上经常灾难性遗忘 → 0%
但 RL 中 seen SR↑ 时,unseen SR 也 ↑
说明:
RL 的 trial-and-error 会促使策略找到稳健的任务抽象,而不是死记示教轨迹。
5.3 Emergent Behavior:“Pushcut” 现象
最惊喜的发现之一:
在示教数据中,任务全部用抓取-移动-放置模式。
但 RL 后模型发现:
- 直接推(push)、切角(cut corner)
- 不抓取也能更高效完成任务
完全是示教数据中没有的行为。
→ 和 DeepSeek-R1 的“涌现式推理”高度一致
→ 证明二值奖励 + 探索足以发现新策略模式。
6. 局限性(Failure Modes)
论文也系统分析了失败场景:
(1)当 SFT=0 时,RL 完全无法启动
因为所有 rollout 都失败 → 全 reward=0 → 无梯度
说明:
RL 离不开至少“可执行的基础技能”。
(2)初始能力越差,RL 提升越有限
阈值现象明显:
- SFT 100 引导 → RL 后 25%
- SFT 1000 → RL 后 50%
(3)需要大量环境交互
尽管是模拟环境,但大规模并行渲染仍有成本。
7. 与相关工作的关系
7.1 与 LLM RL(如 DeepSeek-R1)关系
- 都基于token sampling
- 都用二值 outcome reward
- 都强调探索(温度、clipping、dynamic sampling)
- 目标都是提升“序列规划能力”
可以看作是
DeepSeek-R1 的机器人版本
7.2 在 VLA RL 领域的地位
属于最早系统性研究“VLA 在线 RL”的工作之一
与:
- RIPT-VLA
- RLinf
- GRAPE
等并列,但更强调“极简 reward + 探索”。
8. 总结 & 论文贡献一览
主要贡献:
- 提出一个可扩展、通用的 VLA 在线 RL 框架 SimpleVLA-RL
- 使用二值奖励即可显著提升长时序规划能力
- 提出三大探索增强机制(dynamic sampling、clip higher、T↑)
- 在 LIBERO、RoboTwin1.0、2.0 上全面刷新 SOTA
- Sim2Real 大幅提升
- 发现“Pushcut”涌现式策略
核心观点:
监督学习只会模仿,而 RL 会探索。
VLA 模型通过 RL 可以学到人类示教中不存在的智能行为。