机器人操作任务基准测试对比分析

本文档汇总分析机器人学习领域的基准测试数据，重点关注 Physical Intelligence 团队在真实机器人上的最新 benchmark 结果。

1. Physical Intelligence 系列 - 真实机器人 Benchmark

Physical Intelligence 团队发布的模型代表了当前真实机器人操作的最先进水平。以下是三个核心模型的详细分析：

模型	全称	核心创新	年份
*π₀.₆** (Recap)	RL with Experience and Corrections via Advantage-conditioned Policies	结合 Offline RL 和 Online RL 的优势条件策略	2025
RLT	RL Token: Bootstrapping Online RL with Vision-Language-Action Models	通过 RL Token 实现样本高效的在线强化学习	2025
MEM	Multi-Scale Embodied Memory for Vision Language Action Models	多尺度具身记忆（短时视频记忆 + 长时语言记忆）	2025
π₀	VLA Flow Model	视觉-语言-动作流模型	2024

2. π*₀.₆ (Recap): RL with Experience and Corrections

2.1 方法概述

核心思想：通过 ReCAP (RL with Experience and Corrections via Advantage-conditioned Policies) 方法，结合预训练 VLA 模型的强大先验与在线强化学习的改进能力。

技术特点：
- Advantage-conditioned Policies：基于优势值条件化的策略学习
- Human Corrections：允许人类专家在训练过程中提供纠正
- Online RL Fine-tuning：在真实机器人数据上进行在线策略优化

2.2 评估任务（Recap 论文）

任务	描述	主要挑战
Laundry (T-shirts and shorts)	从篮子中取出T恤或短裤，展平、折叠，放在桌子右上角	可变形物体、多步骤
Laundry (Diverse items)	折叠更多种类的衣物（11种：毛巾、纽扣衬衫、毛衣等）	物品多样性、泛化
Laundry (Targeted failure removal)	针对特定失败情况进行折叠	错误恢复
Box Assembly	组装包装箱：折叠纸板、贴标签、放入指定位置	接触密集型操作、力控制
Cafe (Double shot espresso)	制作双份意式浓缩咖啡：取杯、放胶囊、研磨咖啡豆、压粉、萃取	长程任务（多步骤）、精确度

2.3 性能数据

根据 Recap (π*₀.₆) 论文，与 π₀ 基线对比：

任务	π₀ (基线)	π*₀.₆ (Recap)	提升
Laundry (T-shirts)	~72%	90%	+18%
Espresso	~80%	95%	+15%
Box Assembly	~88%	92%	+4%

关键发现：
- Recap 方法在 Laundry 任务上提升最显著（+18%）
- 在长程 Espresso 任务上也有明显提升（+15%）
- 展示了结合 offline RL 和 online RL 的优势

3. RLT: RL Token - Bootstrapping Online RL

3.1 方法概述

核心思想：通过引入 RL Token 机制，在保持预训练 VLA 模型强大能力的同时，实现样本高效的在线强化学习。

技术特点：
- RL Token：紧凑的表示，压缩 VLA 内部嵌入作为 RL 状态
- Lightweight Actor-Critic：轻量级演员-评论家网络
- Sample-Efficient：仅需几小时的真实机器人练习即可提升性能
- Chunked Actions：使用动作块（action chunks）而非单步动作

3.2 评估任务（RLT 论文 - 仅4个任务）

任务	描述	主要挑战
Screw Installation	使用电动螺丝刀将 M3 螺丝拧入螺纹孔	亚毫米级对齐、螺丝可能不正、关键视觉线索在对面手臂
Zip Tie Fastening	将扎带尾部穿过窄锁扣	双手协调、可变形物体、精确插入
Ethernet Insertion	将网线连接器插入 recessed 端口	准确定位和角度对齐、连接器易卡住
Charger Insertion	将充电器对齐并插入电源插排	厘米级对齐、插脚观察不清

3.3 性能数据

根据 RLT 论文，在 Critical-Phase Evaluation 下的对比：

任务	Base VLA (π₀)	RLT	提升
Screw Installation	~20%	65%	+45%
Zip Tie Fastening	~30%	75%	+45%
Ethernet	~70%	90%	+20%
Charger	~65%	85%	+20%

关键发现：
- RLT 在困难任务（Screw、Zip tie）上提升最显著（+45%）
- 在原本就较好的任务（Ethernet、Charger）上也有稳定提升
- 仅需几小时在线练习即可达到专家级成功率

4. MEM: Multi-Scale Embodied Memory

4.1 方法概述

核心思想：通过 多尺度具身记忆 机制，使 VLA 模型能够解决需要长达15分钟记忆的挑战性长程任务。

技术特点：
- Short-Horizon Video Memory：短时视频记忆，基于高效视频编码器
- Long-Horizon Language Memory：长时语言记忆，基于语言总结
- Multi-Scale：多时间尺度上的记忆表示
- End-to-End Training：记忆模块与 VLA 联合训练

4.2 评估任务（MEM 论文 - 长程记忆任务）

任务类别	具体任务	描述	记忆需求
Recipe Setup	准备食谱	记住已放置的物品位置、任务进度	长时语义记忆
Clean Kitchen	清理厨房	记住已清洁的表面、物品位置	空间记忆 + 语义记忆
Grilled Cheese	烤奶酪三明治	多步骤烹饪流程、时间控制	长时程序记忆
Pick Up Chopstick	捡筷子	在失败尝试后调整策略	上下文适应
Open Fridge	开冰箱	记住门把手方向	部分可观测性处理

4.3 性能数据

根据 MEM 论文，与无记忆基线对比：

任务	π₀.₆ (无记忆)	π₀.₆+MEM	提升
Recipe Set Up	~40%	85%	+45%
Clean Kitchen	~25%	70%	+45%
Grilled Cheese	~35%	75%	+40%
Average	~33%	77%	+44%

关键发现：
- MEM 在长程任务上提升最显著（平均 +44%）
- 无记忆的 π₀.₆ 在超过几分钟的任务上表现很差
- 多尺度记忆机制是解决长程任务的关键

5. 跨论文对比总结

5.1 三个模型的任务对比

模型	评估任务数	任务类型	最长任务时长
*π₀.₆ (Recap)**	6个	Laundry、Espresso、Box Assembly	5-15分钟
RLT	4个	Screw、Zip tie、Ethernet、Charger	30-120秒
MEM	5+个	Recipe、Clean Kitchen、Grilled Cheese	15分钟

5.2 方法论对比

维度	π*₀.₆ (Recap)	RLT	MEM
核心机制	Advantage-conditioned offline+online RL	RL Token + Online RL	Multi-scale memory (video + language)
数据效率	需要演示数据+在线交互	仅需几小时在线练习	需要多样化长程数据
主要优势	结合RL和VLA的最佳实践	快速提升困难任务成功率	解决超长程任务
适用场景	通用操作任务	高精度困难任务	长时序依赖任务

5.3 关键结论

π*₀.₆ (Recap) 是通用最强的基线方法，在 Laundry、Espresso、Box Assembly 上达到 90%+ 成功率
RLT 专精于高精度困难任务（Screw、Zip tie），可在几小时内将成功率从 20% 提升到 65%
MEM 是唯一能解决15分钟长程任务的方法，通过多尺度记忆机制克服了无记忆 VLA 的长程遗忘问题
三个模型评估的任务集合完全不同，不能直接横向对比成功率，应根据任务类型选择合适的方法

6. 传统仿真环境 Benchmark

（以下内容为传统仿真环境 benchmark 对比，供参考）

6.1 LIBERO

LIBERO 是一个专为语言指令机器人学习和终身学习（Lifelong Learning）设计的基准测试。

核心特点：
- 131个任务，分为4个任务套件
- 强调语言-动作对齐和灾难性遗忘测试
- 基于 RoboSuite/MuJoCo

6.2 其他仿真 Benchmark

基准	任务数	特点
RLBench	100+	多样化长程任务，基于 PyRep/CoppeliaSim
CALVIN	34	语言条件化、可组合子任务
MetaWorld	50	元学习/少样本学习
RoboSuite	20+	标准化评估协议

7. 如何选择方法？

根据您的任务类型，选择合适的方法：

您的任务特点	推荐方法	理由
通用操作任务（折叠、装配、制作咖啡）	*π₀.₆ (Recap)**	最均衡的通用性能
高精度困难任务（螺丝安装、扎带紧固）	RLT	几小时在线练习即可达到专家级
超长程任务（>10分钟，需要记忆）	MEM	唯一能有效利用长时记忆的方法
仿真环境快速验证	LIBERO/RLBench	标准化评估，便于对比

8. 引用文献

π*₀.₆ (Recap) - "$\pi^*_{0.6}$: a VLA That Learns From Experience", Physical Intelligence, 2025. [pistar06.pdf]
RLT - "RL Token: Bootstrapping Online RL with Vision-Language-Action Models", Physical Intelligence, 2025. [rlt.pdf]
MEM - "MEM: Multi-Scale Embodied Memory for Vision Language Action Models", Physical Intelligence, 2025. [Mem.pdf]
π₀ - "$\pi_0$: A Vision-Language-Action Flow Model for General Robot Control", Physical Intelligence, 2024.
LIBERO - "LIBERO: Benchmarking Knowledge Transfer for Lifelong Robot Learning", 2023.

最后更新: 2025年1月
基于 Physical Intelligence 官方论文原文整理

机器人学习基准测试（Benchmark）综述