机器人记忆:增强时间决策
概述
本文分解了 Physical Intelligence (PI) 研究项目的 MEM(Multi-scale Embodied Memory,多尺度具身记忆) 方法。MEM 通过维护已做内容、剩余任务和物体位置的结构化记忆,使机器人能够处理长时域任务(长达 15 分钟)。
核心思想
问题:当前机器人能完成简短简单任务,但在清理整个厨房这类长工作中会失败。要完成这些长任务,机器人需要记忆来:
- 跟踪子任务进度
- 记住物体位置
- 避免重复失败尝试
- 在发生变化时适应
解决方案:多尺度记忆架构,对不同时间尺度使用不同记忆表示。
方法:多尺度具身记忆
三个记忆组件
1. 短期:高效视频编码器
- 存储并编码最近帧历史
- 处理即时感官输入
- 将最近观测压缩为可用嵌入
2. 长期:任务进度的文本"笔记"
- 用自然语言维护高层符号记忆
- 由模型主动选择——只存储重要内容
- 示例:"杯子已经放在台面上","咖啡豆已经加入","窗户左玻璃还脏"
- 紧凑、人类可读、方便语言模型推理
3. 子任务选择推理
- 模型根据当前上下文选择要记住什么
- 根据记忆决定下一步处理哪个子任务
- 出错时支持上下文内适应
关键设计选择: 混合视频(稠密感知)和文本(稀疏符号)兼得二者之长。视频捕捉文本无法表达的几何和外观。文本紧凑压缩高层进度,能比纯视频方法在更长时域上保持信息。
实验结果
MEM 在六个长时域机器人任务上测试:
| 任务 | 描述 | 时长 |
|---|---|---|
| 交换三个杯子 | 台面上三个杯子交换位置 | ~1 分钟 |
| 寻找物体 | 在厨房搜索隐藏物体 | ~2 分钟 |
| 拆分 groceries | 将所有 grocery 物品放入正确橱柜 | ~5 分钟 |
| 舀咖啡 | 用咖啡豆填充咖啡机 | ~3 分钟 |
| 烤奶酪三明治 | 完整准备烤奶酪三明治 | ~10 分钟 |
| 清洁窗户 | 清洁整个窗户两面 | ~15 分钟 |
基线对比
MEM 在所有任务上都优于所有基线: - 无记忆:纯图像到动作策略,几步之外就失败 - 池化记忆:平均所有帧,丢失时间结构 - 本体记忆:只记住关节位置,错过物体状态 - 完整 MEM:在所有长度任务上获得最高成功率
消融实验
完整 π₀.₆-MEM 模型与各个消融版本对比: - 无记忆:成功率低,尤其在更长任务上 - 仅视频:比无记忆好,但长时域性能仍然下降 - 朴素文本+视频:比之前好,但仍然不如主动选择鲁棒 - 仅文本:缺乏感知细节,空间精确动作失败 - 完整 MEM:最佳整体性能,尤其在 5 分钟以上任务
与基线相比,MEM 随着任务时长增加,性能下降更慢。
关键发现
- MEM 支持上下文内适应:机器人能通过回忆哪些尝试失败,在失败后调整策略。
- 对遮挡和部分可观测性鲁棒:即使物体不可见,记忆仍能保持状态信息。
- 能处理真正长时域任务:成功完成 10-15 分钟任务,比如做烤奶酪或清洁整个窗户。
- 多尺度优于单尺度:结合视频(短期稠密)和文本(长期稀疏)优于任何单一表示。
- 主动选择很重要:让模型选择记住什么比存储一切更好。
为什么这很重要
当今大多数机器人学习关注受控环境中的短时域任务。但要让机器人在真实家庭中有用,它们需要完成长而复杂的任务。记忆就是让这成为可能的缺失组件。
MEM 表明分层多尺度方法有效:不同时间尺度需要不同记忆表示。近期过去使用稠密感知压缩,长期使用稀疏符号笔记。
记忆方法分类
最近,RoboMME 为评估 VLA 模型中的记忆提供了全面基准和分类。他们沿两个维度对记忆方法分类:
按认知功能(任务类型)
功能分类(记忆的用途)
- 时间记忆:跟踪事件计数、顺序排序,何时转换到下一个子任务。示例:"窗户需要擦三遍"。
- 空间记忆:即使物体被遮挡也保持物体位置。示例:"我之前把杯子放那里了,现在它在箱子后面,但我仍记得位置"。
- 物体记忆:随时间保持引用一致性。示例:即使有相似物体,仍持续跟踪哪个是"红杯子"。
- 过程记忆:存储演示运动模式用于模仿。示例:回忆上次你成功翻煎饼是怎么做的。
表示分类(记忆如何存储)
- 符号化:使用离散自然语言 tokens 存储记忆。紧凑、人类可读、适合高层事实。MEM 对长期记忆使用这种方法。
- 感知型:存储过去帧中选择的视觉 tokens。两种常见选择策略:
- Token 丢弃:基于 RGB 差异移除冗余 patch
- 均匀采样:从历史中均匀采样帧
- 循环:使用循环神经网络(LSTM/GRU)维护隐状态。端到端可微,但在极长序列上会遗忘。
RoboMME 的关键发现
RoboMME 的主要实验发现是没有单一记忆方法在所有任务上占优。效果取决于任务类型:
- 符号记忆在时间和物体记忆任务上表现出色,因为计数和引用自然是符号化的
- 带 grounding 的感知记忆在精确视觉上下文很重要的空间任务上效果更好
- 循环记忆简单,但在极长序列上性能下降
MEM 正好符合这个分类中的混合方法:它对短期记忆使用感知/视频编码,对长期记忆使用符号/文本,结合了两种表示的优点。
参考文献
- Physical Intelligence (PI) Research. (2024). "MEM: Multi-scale Embodied Memory for Long-Horizon Robotic Tasks."
- Project website: https://www.pi.website/research/memory
- Liu et al. (2026). "RoboMME: Benchmarking and Understanding Memory for Robotic Generalist Policies." arXiv:2603.04639
Comments (0)
Please sign in to leave a comment.