机器人操作任务基准测试对比分析
本文档汇总分析机器人学习领域的基准测试数据,重点关注 Physical Intelligence 团队在真实机器人上的最新 benchmark 结果。
1. Physical Intelligence 系列 - 真实机器人 Benchmark
Physical Intelligence 团队发布的模型代表了当前真实机器人操作的最先进水平。以下是三个核心模型的详细分析:
| 模型 | 全称 | 核心创新 | 年份 |
|---|---|---|---|
| π*₀.₆ (Recap) | RL with Experience and Corrections via Advantage-conditioned Policies | 结合 Offline RL 和 Online RL 的优势条件策略 | 2025 |
| RLT | RL Token: Bootstrapping Online RL with Vision-Language-Action Models | 通过 RL Token 实现样本高效的在线强化学习 | 2025 |
| MEM | Multi-Scale Embodied Memory for Vision Language Action Models | 多尺度具身记忆(短时视频记忆 + 长时语言记忆) | 2025 |
| π₀ | VLA Flow Model | 视觉-语言-动作流模型 | 2024 |
2. π*₀.₆ (Recap): RL with Experience and Corrections
2.1 方法概述
核心思想:通过 ReCAP (RL with Experience and Corrections via Advantage-conditioned Policies) 方法,结合预训练 VLA 模型的强大先验与在线强化学习的改进能力。
技术特点:
- Advantage-conditioned Policies:基于优势值条件化的策略学习
- Human Corrections:允许人类专家在训练过程中提供纠正
- Online RL Fine-tuning:在真实机器人数据上进行在线策略优化
2.2 评估任务(Recap 论文)
| 任务 | 描述 | 主要挑战 |
|---|---|---|
| Laundry (T-shirts and shorts) | 从篮子中取出T恤或短裤,展平、折叠,放在桌子右上角 | 可变形物体、多步骤 |
| Laundry (Diverse items) | 折叠更多种类的衣物(11种:毛巾、纽扣衬衫、毛衣等) | 物品多样性、泛化 |
| Laundry (Targeted failure removal) | 针对特定失败情况进行折叠 | 错误恢复 |
| Box Assembly | 组装包装箱:折叠纸板、贴标签、放入指定位置 | 接触密集型操作、力控制 |
| Cafe (Double shot espresso) | 制作双份意式浓缩咖啡:取杯、放胶囊、研磨咖啡豆、压粉、萃取 | 长程任务(多步骤)、精确度 |
2.3 性能数据
根据 Recap (π*₀.₆) 论文,与 π₀ 基线对比:
| 任务 | π₀ (基线) | π*₀.₆ (Recap) | 提升 |
|---|---|---|---|
| Laundry (T-shirts) | ~72% | 90% | +18% |
| Espresso | ~80% | 95% | +15% |
| Box Assembly | ~88% | 92% | +4% |
关键发现:
- Recap 方法在 Laundry 任务上提升最显著(+18%)
- 在长程 Espresso 任务上也有明显提升(+15%)
- 展示了结合 offline RL 和 online RL 的优势
3. RLT: RL Token - Bootstrapping Online RL
3.1 方法概述
核心思想:通过引入 RL Token 机制,在保持预训练 VLA 模型强大能力的同时,实现样本高效的在线强化学习。
技术特点:
- RL Token:紧凑的表示,压缩 VLA 内部嵌入作为 RL 状态
- Lightweight Actor-Critic:轻量级演员-评论家网络
- Sample-Efficient:仅需几小时的真实机器人练习即可提升性能
- Chunked Actions:使用动作块(action chunks)而非单步动作
3.2 评估任务(RLT 论文 - 仅4个任务)
| 任务 | 描述 | 主要挑战 |
|---|---|---|
| Screw Installation | 使用电动螺丝刀将 M3 螺丝拧入螺纹孔 | 亚毫米级对齐、螺丝可能不正、关键视觉线索在对面手臂 |
| Zip Tie Fastening | 将扎带尾部穿过窄锁扣 | 双手协调、可变形物体、精确插入 |
| Ethernet Insertion | 将网线连接器插入 recessed 端口 | 准确定位和角度对齐、连接器易卡住 |
| Charger Insertion | 将充电器对齐并插入电源插排 | 厘米级对齐、插脚观察不清 |
3.3 性能数据
根据 RLT 论文,在 Critical-Phase Evaluation 下的对比:
| 任务 | Base VLA (π₀) | RLT | 提升 |
|---|---|---|---|
| Screw Installation | ~20% | 65% | +45% |
| Zip Tie Fastening | ~30% | 75% | +45% |
| Ethernet | ~70% | 90% | +20% |
| Charger | ~65% | 85% | +20% |
关键发现:
- RLT 在困难任务(Screw、Zip tie)上提升最显著(+45%)
- 在原本就较好的任务(Ethernet、Charger)上也有稳定提升
- 仅需几小时在线练习即可达到专家级成功率
4. MEM: Multi-Scale Embodied Memory
4.1 方法概述
核心思想:通过 多尺度具身记忆 机制,使 VLA 模型能够解决需要长达15分钟记忆的挑战性长程任务。
技术特点:
- Short-Horizon Video Memory:短时视频记忆,基于高效视频编码器
- Long-Horizon Language Memory:长时语言记忆,基于语言总结
- Multi-Scale:多时间尺度上的记忆表示
- End-to-End Training:记忆模块与 VLA 联合训练
4.2 评估任务(MEM 论文 - 长程记忆任务)
| 任务类别 | 具体任务 | 描述 | 记忆需求 |
|---|---|---|---|
| Recipe Setup | 准备食谱 | 记住已放置的物品位置、任务进度 | 长时语义记忆 |
| Clean Kitchen | 清理厨房 | 记住已清洁的表面、物品位置 | 空间记忆 + 语义记忆 |
| Grilled Cheese | 烤奶酪三明治 | 多步骤烹饪流程、时间控制 | 长时程序记忆 |
| Pick Up Chopstick | 捡筷子 | 在失败尝试后调整策略 | 上下文适应 |
| Open Fridge | 开冰箱 | 记住门把手方向 | 部分可观测性处理 |
4.3 性能数据
根据 MEM 论文,与无记忆基线对比:
| 任务 | π₀.₆ (无记忆) | π₀.₆+MEM | 提升 |
|---|---|---|---|
| Recipe Set Up | ~40% | 85% | +45% |
| Clean Kitchen | ~25% | 70% | +45% |
| Grilled Cheese | ~35% | 75% | +40% |
| Average | ~33% | 77% | +44% |
关键发现:
- MEM 在长程任务上提升最显著(平均 +44%)
- 无记忆的 π₀.₆ 在超过几分钟的任务上表现很差
- 多尺度记忆机制是解决长程任务的关键
5. 跨论文对比总结
5.1 三个模型的任务对比
| 模型 | 评估任务数 | 任务类型 | 最长任务时长 |
|---|---|---|---|
| π*₀.₆ (Recap) | 6个 | Laundry、Espresso、Box Assembly | 5-15分钟 |
| RLT | 4个 | Screw、Zip tie、Ethernet、Charger | 30-120秒 |
| MEM | 5+个 | Recipe、Clean Kitchen、Grilled Cheese | 15分钟 |
5.2 方法论对比
| 维度 | π*₀.₆ (Recap) | RLT | MEM |
|---|---|---|---|
| 核心机制 | Advantage-conditioned offline+online RL | RL Token + Online RL | Multi-scale memory (video + language) |
| 数据效率 | 需要演示数据+在线交互 | 仅需几小时在线练习 | 需要多样化长程数据 |
| 主要优势 | 结合RL和VLA的最佳实践 | 快速提升困难任务成功率 | 解决超长程任务 |
| 适用场景 | 通用操作任务 | 高精度困难任务 | 长时序依赖任务 |
5.3 关键结论
-
π*₀.₆ (Recap) 是通用最强的基线方法,在 Laundry、Espresso、Box Assembly 上达到 90%+ 成功率
-
RLT 专精于高精度困难任务(Screw、Zip tie),可在几小时内将成功率从 20% 提升到 65%
-
MEM 是唯一能解决15分钟长程任务的方法,通过多尺度记忆机制克服了无记忆 VLA 的长程遗忘问题
-
三个模型评估的任务集合完全不同,不能直接横向对比成功率,应根据任务类型选择合适的方法
6. 传统仿真环境 Benchmark
(以下内容为传统仿真环境 benchmark 对比,供参考)
6.1 LIBERO
LIBERO 是一个专为语言指令机器人学习和终身学习(Lifelong Learning)设计的基准测试。
核心特点:
- 131个任务,分为4个任务套件
- 强调语言-动作对齐和灾难性遗忘测试
- 基于 RoboSuite/MuJoCo
6.2 其他仿真 Benchmark
| 基准 | 任务数 | 特点 |
|---|---|---|
| RLBench | 100+ | 多样化长程任务,基于 PyRep/CoppeliaSim |
| CALVIN | 34 | 语言条件化、可组合子任务 |
| MetaWorld | 50 | 元学习/少样本学习 |
| RoboSuite | 20+ | 标准化评估协议 |
7. 如何选择方法?
根据您的任务类型,选择合适的方法:
| 您的任务特点 | 推荐方法 | 理由 |
|---|---|---|
| 通用操作任务(折叠、装配、制作咖啡) | π*₀.₆ (Recap) | 最均衡的通用性能 |
| 高精度困难任务(螺丝安装、扎带紧固) | RLT | 几小时在线练习即可达到专家级 |
| 超长程任务(>10分钟,需要记忆) | MEM | 唯一能有效利用长时记忆的方法 |
| 仿真环境快速验证 | LIBERO/RLBench | 标准化评估,便于对比 |
8. 引用文献
- π*₀.₆ (Recap) - "$\pi^*_{0.6}$: a VLA That Learns From Experience", Physical Intelligence, 2025. [pistar06.pdf]
- RLT - "RL Token: Bootstrapping Online RL with Vision-Language-Action Models", Physical Intelligence, 2025. [rlt.pdf]
- MEM - "MEM: Multi-Scale Embodied Memory for Vision Language Action Models", Physical Intelligence, 2025. [Mem.pdf]
- π₀ - "$\pi_0$: A Vision-Language-Action Flow Model for General Robot Control", Physical Intelligence, 2024.
- LIBERO - "LIBERO: Benchmarking Knowledge Transfer for Lifelong Robot Learning", 2023.
最后更新: 2025年1月
基于 Physical Intelligence 官方论文原文整理
Comments (0)
Please sign in to leave a comment.