📘《SimpleVLA-RL》学习笔记

1. 研究背景与问题动机

1.1 Vision-Language-Action（VLA）模型的发展背景

VLA 模型旨在使用统一网络完成三类能力：

视觉理解（Vision）
语言理解（Language Instructions）
机器人动作生成（Action Generation）

它们是现代通用机器人系统（Generalist Robots）的核心，如
Octo、OpenVLA、π0、RDT 等。

这些模型通常采用两阶段训练：

多模态大规模预训练（视频、图文、轨迹数据）
大量真实机器人示教数据的 SFT（supervised fine-tuning）

1.2 现存瓶颈

（1）示教数据稀缺且昂贵

采集真实机器人轨迹需要：

专业人员
高成本硬件
一个任务采几百条轨迹
→ 显著限制 SFT 的可扩展性。

（2）泛化能力差

在：

新物体
新布局
新任务组合
长时序任务
中性能显著下降。

（3）RL 在机器人领域难用

尽管 DeepSeek-R1 显示 RL 能显著提升“推理能力”，
但在 VLA 中 RL 存在难点：

需要环境交互（昂贵）
传统 RL 依赖人工 reward shaping（不通用）
演化式策略生成不同轨迹难度大

⚡论文动机

能否像 DeepSeek-R1 一样，只用简单的二值结果奖励（0/1），让 VLA 在环境中自我探索，通过 RL 大幅提升动作规划与泛化能力？

论文提出——

SimpleVLA-RL：一个极简但高效的 VLA 在线强化学习框架

2. 方法核心思想（One Sentence Summary）

用“多样化采样 + 全程环境交互 + 二值任务奖励 + GRPO”训练 VLA，使其通过 RL 发现超出示教数据之外的解决策略，从而提升长时序规划能力与泛化性。

3. 方法结构拆解

3.1 交互式 VLA Rollout：从 LLM 生成到机器人环境交互

不同于 LLM 的纯文本自回归，
VLA RL 必须进行 闭环环境交互：

流程：

根据当前 observation（图像 + 语言 + 本体信息）
生成一段 action chunk（如 8 个动作）
将 chunk 依次执行
获取新的 observation
重复直到结束或失败

难点：动作序列的多样化比文本难得多。

论文采用 action tokenization（类似 LLM token）
→ 使得每一步生成分布（probabilities），从而允许随机采样用于 RL。

3.2 简单但强大的 Reward：0/1 二值 Outcome Reward

奖励函数极其简单：

成功：整条轨迹所有 token reward = 1
失败：全部 = 0

没有 shaping
没有距离奖励
没有过程奖励

→ 和 DeepSeek-R1 非常一致
→ 极大提升通用性与可扩展性

3.3 三大探索增强机制（exploration enhancements）

论文指出：VLA 要想通过 RL 学到新策略，需要更强探索。

三项关键改进：

（1）Dynamic Sampling

如果同一个 prompt 的多个采样轨迹全部成功或失败 → 优势 A_i = 0 → 无梯度
因此：
丢弃全成功/全失败的组，只保留成功/失败混合的组
确保梯度始终有效。

（2）Clip-Higher（来自 DAPO）

PPO clipping 上界从 1.2 → 1.28
允许低概率动作更容易被提升 → 增强探索。

（3）更高采样温度

T = 1.0 → 1.6
→ 显著增加动作序列多样性。

三者结合带来约 10 ~ 15% 提升。

3.4 训练目标：GRPO（无 Value Function、稳定高效）

论文采用 Group Relative Policy Optimization (GRPO)，特点：

不需要 value model
只需要比较 group 内 reward
算法稳定、简单
KL regularization 被完全移除（进一步增强探索）

4. 实验结果总结

论文在 3 个主流模拟基准和真实机器人上验证：

4.1 LIBERO（单臂）

从 91.0% → 99.1%（+8.1%）
各子任务均达到 SOTA。

特别是长时序 LIBERO-Long：
86.5% → 98.5%（+12%）

4.2 RoboTwin 1.0（双臂）

平均：39.8% → 70.4%（+30.6%）

4.3 RoboTwin 2.0（双臂，更复杂）

平均：38.3% → 68.8%（+30.5%）
在所有 12 个任务（短、中、长、超长）都有显著提升。

4.4 真实机器人（Sim2Real）

平均提升：
17.5% → 38.5%（+21%）

关键任务如 Stack Bowls 达到 70%，优于 RDT（60%）。

5. 深度分析（Insights）

5.1 RL 显著缓解数据稀缺（Data Scarcity）

惊人实验：

Setting	Avg SR
One-Trajectory SFT（每任务仅 1 条数据）	48.9%
One-Trajectory SFT + RL	96.9%
Full SFT（500 条）	91.0%

→ RL 甚至可以用 1 条 SFT 轨迹超过 500 条数据 SFT
→ 对机器人训练的意义极大（降低示教成本）

5.2 RL 获得更强泛化能力

SFT 在 unseen tasks 上经常灾难性遗忘 → 0%
但 RL 中 seen SR↑ 时，unseen SR 也 ↑
说明：

RL 的 trial-and-error 会促使策略找到稳健的任务抽象，而不是死记示教轨迹。

5.3 Emergent Behavior：“Pushcut” 现象

最惊喜的发现之一：

在示教数据中，任务全部用抓取-移动-放置模式。

但 RL 后模型发现：

直接推（push）、切角（cut corner）
不抓取也能更高效完成任务

完全是示教数据中没有的行为。

→ 和 DeepSeek-R1 的“涌现式推理”高度一致
→ 证明二值奖励 + 探索足以发现新策略模式。

6. 局限性（Failure Modes）

论文也系统分析了失败场景：

（1）当 SFT=0 时，RL 完全无法启动

因为所有 rollout 都失败 → 全 reward=0 → 无梯度
说明：

RL 离不开至少“可执行的基础技能”。

（2）初始能力越差，RL 提升越有限

阈值现象明显：

SFT 100 引导 → RL 后 25%
SFT 1000 → RL 后 50%

（3）需要大量环境交互

尽管是模拟环境，但大规模并行渲染仍有成本。

7. 与相关工作的关系

7.1 与 LLM RL（如 DeepSeek-R1）关系

都基于token sampling
都用二值 outcome reward
都强调探索（温度、clipping、dynamic sampling）
目标都是提升“序列规划能力”

可以看作是

DeepSeek-R1 的机器人版本

7.2 在 VLA RL 领域的地位

属于最早系统性研究“VLA 在线 RL”的工作之一
与：

RIPT-VLA
RLinf
GRAPE
等并列，但更强调“极简 reward + 探索”。

8. 总结 & 论文贡献一览

主要贡献：

提出一个可扩展、通用的 VLA 在线 RL 框架 SimpleVLA-RL
使用二值奖励即可显著提升长时序规划能力
提出三大探索增强机制（dynamic sampling、clip higher、T↑）
在 LIBERO、RoboTwin1.0、2.0 上全面刷新 SOTA
Sim2Real 大幅提升
发现“Pushcut”涌现式策略

核心观点：

监督学习只会模仿，而 RL 会探索。

VLA 模型通过 RL 可以学到人类示教中不存在的智能行为。

论文阅读

#大模型 #VLA

📘《SimpleVLA-RL》学习笔记

https://this-is-kuo.github.io/2025/11/13/📘《SimpleVLA-RL》学习笔记/

作者

Kuo

发布于

2025年11月13日

许可协议

OpenVla复现上一篇

学习笔记 — 机器人操作综述：重点关注 VLA（视觉-语言-动作）方法下一篇