机器人学习基准测试(Benchmark)综述

机器人操作任务基准测试对比分析

本文档汇总分析机器人学习领域的基准测试数据,重点关注 Physical Intelligence 团队在真实机器人上的最新 benchmark 结果。


1. Physical Intelligence 系列 - 真实机器人 Benchmark

Physical Intelligence 团队发布的模型代表了当前真实机器人操作的最先进水平。以下是三个核心模型的详细分析:

模型 全称 核心创新 年份
π*₀.₆ (Recap) RL with Experience and Corrections via Advantage-conditioned Policies 结合 Offline RL 和 Online RL 的优势条件策略 2025
RLT RL Token: Bootstrapping Online RL with Vision-Language-Action Models 通过 RL Token 实现样本高效的在线强化学习 2025
MEM Multi-Scale Embodied Memory for Vision Language Action Models 多尺度具身记忆(短时视频记忆 + 长时语言记忆) 2025
π₀ VLA Flow Model 视觉-语言-动作流模型 2024

2. π*₀.₆ (Recap): RL with Experience and Corrections

2.1 方法概述

核心思想:通过 ReCAP (RL with Experience and Corrections via Advantage-conditioned Policies) 方法,结合预训练 VLA 模型的强大先验与在线强化学习的改进能力。

技术特点
- Advantage-conditioned Policies:基于优势值条件化的策略学习
- Human Corrections:允许人类专家在训练过程中提供纠正
- Online RL Fine-tuning:在真实机器人数据上进行在线策略优化

2.2 评估任务(Recap 论文)

任务 描述 主要挑战
Laundry (T-shirts and shorts) 从篮子中取出T恤或短裤,展平、折叠,放在桌子右上角 可变形物体、多步骤
Laundry (Diverse items) 折叠更多种类的衣物(11种:毛巾、纽扣衬衫、毛衣等) 物品多样性、泛化
Laundry (Targeted failure removal) 针对特定失败情况进行折叠 错误恢复
Box Assembly 组装包装箱:折叠纸板、贴标签、放入指定位置 接触密集型操作、力控制
Cafe (Double shot espresso) 制作双份意式浓缩咖啡:取杯、放胶囊、研磨咖啡豆、压粉、萃取 长程任务(多步骤)、精确度

2.3 性能数据

根据 Recap (π*₀.₆) 论文,与 π₀ 基线对比:

任务 π₀ (基线) π*₀.₆ (Recap) 提升
Laundry (T-shirts) ~72% 90% +18%
Espresso ~80% 95% +15%
Box Assembly ~88% 92% +4%

关键发现
- Recap 方法在 Laundry 任务上提升最显著(+18%)
- 在长程 Espresso 任务上也有明显提升(+15%)
- 展示了结合 offline RL 和 online RL 的优势


3. RLT: RL Token - Bootstrapping Online RL

3.1 方法概述

核心思想:通过引入 RL Token 机制,在保持预训练 VLA 模型强大能力的同时,实现样本高效的在线强化学习。

技术特点
- RL Token:紧凑的表示,压缩 VLA 内部嵌入作为 RL 状态
- Lightweight Actor-Critic:轻量级演员-评论家网络
- Sample-Efficient:仅需几小时的真实机器人练习即可提升性能
- Chunked Actions:使用动作块(action chunks)而非单步动作

3.2 评估任务(RLT 论文 - 仅4个任务)

任务 描述 主要挑战
Screw Installation 使用电动螺丝刀将 M3 螺丝拧入螺纹孔 亚毫米级对齐、螺丝可能不正、关键视觉线索在对面手臂
Zip Tie Fastening 将扎带尾部穿过窄锁扣 双手协调、可变形物体、精确插入
Ethernet Insertion 将网线连接器插入 recessed 端口 准确定位和角度对齐、连接器易卡住
Charger Insertion 将充电器对齐并插入电源插排 厘米级对齐、插脚观察不清

3.3 性能数据

根据 RLT 论文,在 Critical-Phase Evaluation 下的对比:

任务 Base VLA (π₀) RLT 提升
Screw Installation ~20% 65% +45%
Zip Tie Fastening ~30% 75% +45%
Ethernet ~70% 90% +20%
Charger ~65% 85% +20%

关键发现
- RLT 在困难任务(Screw、Zip tie)上提升最显著(+45%)
- 在原本就较好的任务(Ethernet、Charger)上也有稳定提升
- 仅需几小时在线练习即可达到专家级成功率


4. MEM: Multi-Scale Embodied Memory

4.1 方法概述

核心思想:通过 多尺度具身记忆 机制,使 VLA 模型能够解决需要长达15分钟记忆的挑战性长程任务。

技术特点
- Short-Horizon Video Memory:短时视频记忆,基于高效视频编码器
- Long-Horizon Language Memory:长时语言记忆,基于语言总结
- Multi-Scale:多时间尺度上的记忆表示
- End-to-End Training:记忆模块与 VLA 联合训练

4.2 评估任务(MEM 论文 - 长程记忆任务)

任务类别 具体任务 描述 记忆需求
Recipe Setup 准备食谱 记住已放置的物品位置、任务进度 长时语义记忆
Clean Kitchen 清理厨房 记住已清洁的表面、物品位置 空间记忆 + 语义记忆
Grilled Cheese 烤奶酪三明治 多步骤烹饪流程、时间控制 长时程序记忆
Pick Up Chopstick 捡筷子 在失败尝试后调整策略 上下文适应
Open Fridge 开冰箱 记住门把手方向 部分可观测性处理

4.3 性能数据

根据 MEM 论文,与无记忆基线对比:

任务 π₀.₆ (无记忆) π₀.₆+MEM 提升
Recipe Set Up ~40% 85% +45%
Clean Kitchen ~25% 70% +45%
Grilled Cheese ~35% 75% +40%
Average ~33% 77% +44%

关键发现
- MEM 在长程任务上提升最显著(平均 +44%)
- 无记忆的 π₀.₆ 在超过几分钟的任务上表现很差
- 多尺度记忆机制是解决长程任务的关键


5. 跨论文对比总结

5.1 三个模型的任务对比

模型 评估任务数 任务类型 最长任务时长
π*₀.₆ (Recap) 6个 Laundry、Espresso、Box Assembly 5-15分钟
RLT 4个 Screw、Zip tie、Ethernet、Charger 30-120秒
MEM 5+个 Recipe、Clean Kitchen、Grilled Cheese 15分钟

5.2 方法论对比

维度 π*₀.₆ (Recap) RLT MEM
核心机制 Advantage-conditioned offline+online RL RL Token + Online RL Multi-scale memory (video + language)
数据效率 需要演示数据+在线交互 仅需几小时在线练习 需要多样化长程数据
主要优势 结合RL和VLA的最佳实践 快速提升困难任务成功率 解决超长程任务
适用场景 通用操作任务 高精度困难任务 长时序依赖任务

5.3 关键结论

  1. π*₀.₆ (Recap) 是通用最强的基线方法,在 Laundry、Espresso、Box Assembly 上达到 90%+ 成功率

  2. RLT 专精于高精度困难任务(Screw、Zip tie),可在几小时内将成功率从 20% 提升到 65%

  3. MEM 是唯一能解决15分钟长程任务的方法,通过多尺度记忆机制克服了无记忆 VLA 的长程遗忘问题

  4. 三个模型评估的任务集合完全不同,不能直接横向对比成功率,应根据任务类型选择合适的方法


6. 传统仿真环境 Benchmark

(以下内容为传统仿真环境 benchmark 对比,供参考)

6.1 LIBERO

LIBERO 是一个专为语言指令机器人学习终身学习(Lifelong Learning)设计的基准测试。

核心特点
- 131个任务,分为4个任务套件
- 强调语言-动作对齐和灾难性遗忘测试
- 基于 RoboSuite/MuJoCo

6.2 其他仿真 Benchmark

基准 任务数 特点
RLBench 100+ 多样化长程任务,基于 PyRep/CoppeliaSim
CALVIN 34 语言条件化、可组合子任务
MetaWorld 50 元学习/少样本学习
RoboSuite 20+ 标准化评估协议

7. 如何选择方法?

根据您的任务类型,选择合适的方法:

您的任务特点 推荐方法 理由
通用操作任务(折叠、装配、制作咖啡) π*₀.₆ (Recap) 最均衡的通用性能
高精度困难任务(螺丝安装、扎带紧固) RLT 几小时在线练习即可达到专家级
超长程任务(>10分钟,需要记忆) MEM 唯一能有效利用长时记忆的方法
仿真环境快速验证 LIBERO/RLBench 标准化评估,便于对比

8. 引用文献

  1. π*₀.₆ (Recap) - "$\pi^*_{0.6}$: a VLA That Learns From Experience", Physical Intelligence, 2025. [pistar06.pdf]
  2. RLT - "RL Token: Bootstrapping Online RL with Vision-Language-Action Models", Physical Intelligence, 2025. [rlt.pdf]
  3. MEM - "MEM: Multi-Scale Embodied Memory for Vision Language Action Models", Physical Intelligence, 2025. [Mem.pdf]
  4. π₀ - "$\pi_0$: A Vision-Language-Action Flow Model for General Robot Control", Physical Intelligence, 2024.
  5. LIBERO - "LIBERO: Benchmarking Knowledge Transfer for Lifelong Robot Learning", 2023.

最后更新: 2025年1月
基于 Physical Intelligence 官方论文原文整理

Comments (0)