📘《SimpleVLA-RL》学习笔记

📘《SimpleVLA-RL》学习笔记

1. 研究背景与问题动机

1.1 Vision-Language-Action(VLA)模型的发展背景

VLA 模型旨在使用统一网络完成三类能力:

  • 视觉理解(Vision)
  • 语言理解(Language Instructions)
  • 机器人动作生成(Action Generation)

它们是现代通用机器人系统(Generalist Robots)的核心,如
Octo、OpenVLA、π0、RDT 等。

这些模型通常采用两阶段训练

  1. 多模态大规模预训练(视频、图文、轨迹数据)
  2. 大量真实机器人示教数据的 SFT(supervised fine-tuning)

1.2 现存瓶颈

(1)示教数据稀缺且昂贵

采集真实机器人轨迹需要:

  • 专业人员
  • 高成本硬件
  • 一个任务采几百条轨迹
    → 显著限制 SFT 的可扩展性。

(2)泛化能力差

在:

  • 新物体
  • 新布局
  • 新任务组合
  • 长时序任务
    中性能显著下降。

(3)RL 在机器人领域难用

尽管 DeepSeek-R1 显示 RL 能显著提升“推理能力”,
但在 VLA 中 RL 存在难点:

  • 需要环境交互(昂贵)
  • 传统 RL 依赖人工 reward shaping(不通用)
  • 演化式策略生成不同轨迹难度大

⚡论文动机

能否像 DeepSeek-R1 一样,只用简单的二值结果奖励(0/1),让 VLA 在环境中自我探索,通过 RL 大幅提升动作规划与泛化能力?

论文提出——

SimpleVLA-RL:一个极简但高效的 VLA 在线强化学习框架


2. 方法核心思想(One Sentence Summary)

用“多样化采样 + 全程环境交互 + 二值任务奖励 + GRPO”训练 VLA,使其通过 RL 发现超出示教数据之外的解决策略,从而提升长时序规划能力与泛化性。


3. 方法结构拆解

3.1 交互式 VLA Rollout:从 LLM 生成到机器人环境交互

不同于 LLM 的纯文本自回归,
VLA RL 必须进行 闭环环境交互

流程:

  1. 根据当前 observation(图像 + 语言 + 本体信息)
  2. 生成一段 action chunk(如 8 个动作)
  3. 将 chunk 依次执行
  4. 获取新的 observation
  5. 重复直到结束或失败

难点:动作序列的多样化比文本难得多。

论文采用 action tokenization(类似 LLM token)
→ 使得每一步生成分布(probabilities),从而允许随机采样用于 RL。

3.2 简单但强大的 Reward:0/1 二值 Outcome Reward

奖励函数极其简单:

  • 成功:整条轨迹所有 token reward = 1
  • 失败:全部 = 0

没有 shaping
没有距离奖励
没有过程奖励

→ 和 DeepSeek-R1 非常一致
→ 极大提升通用性与可扩展性

3.3 三大探索增强机制(exploration enhancements)

论文指出:VLA 要想通过 RL 学到新策略,需要更强探索。

三项关键改进:

(1)Dynamic Sampling

如果同一个 prompt 的多个采样轨迹全部成功或失败 → 优势 A_i = 0 → 无梯度
因此:
丢弃全成功/全失败的组,只保留成功/失败混合的组
确保梯度始终有效。

(2)Clip-Higher(来自 DAPO)

PPO clipping 上界从 1.2 → 1.28
允许低概率动作更容易被提升 → 增强探索。

(3)更高采样温度

T = 1.0 → 1.6
→ 显著增加动作序列多样性。

三者结合带来约 10 ~ 15% 提升。

3.4 训练目标:GRPO(无 Value Function、稳定高效)

论文采用 Group Relative Policy Optimization (GRPO),特点:

  • 不需要 value model
  • 只需要比较 group 内 reward
  • 算法稳定、简单
  • KL regularization 被完全移除(进一步增强探索)

4. 实验结果总结

论文在 3 个主流模拟基准和真实机器人上验证:

4.1 LIBERO(单臂)

从 91.0% → 99.1%(+8.1%)
各子任务均达到 SOTA。

特别是长时序 LIBERO-Long:
86.5% → 98.5%(+12%)

4.2 RoboTwin 1.0(双臂)

平均:39.8% → 70.4%(+30.6%)

4.3 RoboTwin 2.0(双臂,更复杂)

平均:38.3% → 68.8%(+30.5%)
在所有 12 个任务(短、中、长、超长)都有显著提升。

4.4 真实机器人(Sim2Real)

平均提升:
17.5% → 38.5%(+21%)

关键任务如 Stack Bowls 达到 70%,优于 RDT(60%)。


5. 深度分析(Insights)

5.1 RL 显著缓解数据稀缺(Data Scarcity)

惊人实验:

Setting Avg SR
One-Trajectory SFT(每任务仅 1 条数据) 48.9%
One-Trajectory SFT + RL 96.9%
Full SFT(500 条) 91.0%

→ RL 甚至可以用 1 条 SFT 轨迹超过 500 条数据 SFT
→ 对机器人训练的意义极大(降低示教成本)

5.2 RL 获得更强泛化能力

SFT 在 unseen tasks 上经常灾难性遗忘 → 0%
但 RL 中 seen SR↑ 时,unseen SR 也 ↑
说明:

RL 的 trial-and-error 会促使策略找到稳健的任务抽象,而不是死记示教轨迹。

5.3 Emergent Behavior:“Pushcut” 现象

最惊喜的发现之一:

在示教数据中,任务全部用抓取-移动-放置模式。

但 RL 后模型发现:

  • 直接推(push)、切角(cut corner)
  • 不抓取也能更高效完成任务

完全是示教数据中没有的行为。

→ 和 DeepSeek-R1 的“涌现式推理”高度一致
→ 证明二值奖励 + 探索足以发现新策略模式


6. 局限性(Failure Modes)

论文也系统分析了失败场景:

(1)当 SFT=0 时,RL 完全无法启动

因为所有 rollout 都失败 → 全 reward=0 → 无梯度
说明:

RL 离不开至少“可执行的基础技能”。

(2)初始能力越差,RL 提升越有限

阈值现象明显:

  • SFT 100 引导 → RL 后 25%
  • SFT 1000 → RL 后 50%

(3)需要大量环境交互

尽管是模拟环境,但大规模并行渲染仍有成本。


7. 与相关工作的关系

7.1 与 LLM RL(如 DeepSeek-R1)关系

  • 都基于token sampling
  • 都用二值 outcome reward
  • 都强调探索(温度、clipping、dynamic sampling)
  • 目标都是提升“序列规划能力”

可以看作是

DeepSeek-R1 的机器人版本

7.2 在 VLA RL 领域的地位

属于最早系统性研究“VLA 在线 RL”的工作之一
与:

  • RIPT-VLA
  • RLinf
  • GRAPE
    等并列,但更强调“极简 reward + 探索”。

8. 总结 & 论文贡献一览

主要贡献:

  1. 提出一个可扩展、通用的 VLA 在线 RL 框架 SimpleVLA-RL
  2. 使用二值奖励即可显著提升长时序规划能力
  3. 提出三大探索增强机制(dynamic sampling、clip higher、T↑)
  4. 在 LIBERO、RoboTwin1.0、2.0 上全面刷新 SOTA
  5. Sim2Real 大幅提升
  6. 发现“Pushcut”涌现式策略

核心观点:

监督学习只会模仿,而 RL 会探索。

VLA 模型通过 RL 可以学到人类示教中不存在的智能行为。



📘《SimpleVLA-RL》学习笔记
https://this-is-kuo.github.io/2025/11/13/📘《SimpleVLA-RL》学习笔记/
作者
Kuo
发布于
2025年11月13日
许可协议