memory_for_robotics

机器人记忆:增强时间决策

概述

本文分解了 Physical Intelligence (PI) 研究项目的 MEM(Multi-scale Embodied Memory,多尺度具身记忆) 方法。MEM 通过维护已做内容、剩余任务和物体位置的结构化记忆,使机器人能够处理长时域任务(长达 15 分钟)。

核心思想

问题:当前机器人能完成简短简单任务,但在清理整个厨房这类长工作中会失败。要完成这些长任务,机器人需要记忆来:

  • 跟踪子任务进度
  • 记住物体位置
  • 避免重复失败尝试
  • 在发生变化时适应

解决方案:多尺度记忆架构,对不同时间尺度使用不同记忆表示。

方法:多尺度具身记忆

三个记忆组件

1. 短期:高效视频编码器

  • 存储并编码最近帧历史
  • 处理即时感官输入
  • 将最近观测压缩为可用嵌入

2. 长期:任务进度的文本"笔记"

  • 用自然语言维护高层符号记忆
  • 由模型主动选择——只存储重要内容
  • 示例:"杯子已经放在台面上","咖啡豆已经加入","窗户左玻璃还脏"
  • 紧凑、人类可读、方便语言模型推理

3. 子任务选择推理

  • 模型根据当前上下文选择要记住什么
  • 根据记忆决定下一步处理哪个子任务
  • 出错时支持上下文内适应

关键设计选择: 混合视频(稠密感知)和文本(稀疏符号)兼得二者之长。视频捕捉文本无法表达的几何和外观。文本紧凑压缩高层进度,能比纯视频方法在更长时域上保持信息。

实验结果

MEM 在六个长时域机器人任务上测试:

任务 描述 时长
交换三个杯子 台面上三个杯子交换位置 ~1 分钟
寻找物体 在厨房搜索隐藏物体 ~2 分钟
拆分 groceries 将所有 grocery 物品放入正确橱柜 ~5 分钟
舀咖啡 用咖啡豆填充咖啡机 ~3 分钟
烤奶酪三明治 完整准备烤奶酪三明治 ~10 分钟
清洁窗户 清洁整个窗户两面 ~15 分钟

基线对比

MEM 在所有任务上都优于所有基线: - 无记忆:纯图像到动作策略,几步之外就失败 - 池化记忆:平均所有帧,丢失时间结构 - 本体记忆:只记住关节位置,错过物体状态 - 完整 MEM:在所有长度任务上获得最高成功率

消融实验

完整 π₀.₆-MEM 模型与各个消融版本对比: - 无记忆:成功率低,尤其在更长任务上 - 仅视频:比无记忆好,但长时域性能仍然下降 - 朴素文本+视频:比之前好,但仍然不如主动选择鲁棒 - 仅文本:缺乏感知细节,空间精确动作失败 - 完整 MEM:最佳整体性能,尤其在 5 分钟以上任务

与基线相比,MEM 随着任务时长增加,性能下降更慢。

关键发现

  1. MEM 支持上下文内适应:机器人能通过回忆哪些尝试失败,在失败后调整策略。
  2. 对遮挡和部分可观测性鲁棒:即使物体不可见,记忆仍能保持状态信息。
  3. 能处理真正长时域任务:成功完成 10-15 分钟任务,比如做烤奶酪或清洁整个窗户。
  4. 多尺度优于单尺度:结合视频(短期稠密)和文本(长期稀疏)优于任何单一表示。
  5. 主动选择很重要:让模型选择记住什么比存储一切更好。

为什么这很重要

当今大多数机器人学习关注受控环境中的短时域任务。但要让机器人在真实家庭中有用,它们需要完成长而复杂的任务。记忆就是让这成为可能的缺失组件。

MEM 表明分层多尺度方法有效:不同时间尺度需要不同记忆表示。近期过去使用稠密感知压缩,长期使用稀疏符号笔记。

**项目主页:** 更多详情见 <https://www.pi.website/research/memory> **论文 PDF:** <https://www.pi.website/download/Mem.pdf>

记忆方法分类

最近,RoboMME 为评估 VLA 模型中的记忆提供了全面基准和分类。他们沿两个维度对记忆方法分类:

按认知功能(任务类型)

功能分类(记忆的用途)

  • 时间记忆:跟踪事件计数、顺序排序,何时转换到下一个子任务。示例:"窗户需要擦三遍"。
  • 空间记忆:即使物体被遮挡也保持物体位置。示例:"我之前把杯子放那里了,现在它在箱子后面,但我仍记得位置"。
  • 物体记忆:随时间保持引用一致性。示例:即使有相似物体,仍持续跟踪哪个是"红杯子"。
  • 过程记忆:存储演示运动模式用于模仿。示例:回忆上次你成功翻煎饼是怎么做的。

表示分类(记忆如何存储)

  • 符号化:使用离散自然语言 tokens 存储记忆。紧凑、人类可读、适合高层事实。MEM 对长期记忆使用这种方法。
  • 感知型:存储过去帧中选择的视觉 tokens。两种常见选择策略:
  • Token 丢弃:基于 RGB 差异移除冗余 patch
  • 均匀采样:从历史中均匀采样帧
  • 循环:使用循环神经网络(LSTM/GRU)维护隐状态。端到端可微,但在极长序列上会遗忘。

RoboMME 的关键发现

RoboMME 的主要实验发现是没有单一记忆方法在所有任务上占优。效果取决于任务类型:

  • 符号记忆在时间和物体记忆任务上表现出色,因为计数和引用自然是符号化的
  • 带 grounding 的感知记忆在精确视觉上下文很重要的空间任务上效果更好
  • 循环记忆简单,但在极长序列上性能下降

MEM 正好符合这个分类中的混合方法:它对短期记忆使用感知/视频编码,对长期记忆使用符号/文本,结合了两种表示的优点。

参考文献

  1. Physical Intelligence (PI) Research. (2024). "MEM: Multi-scale Embodied Memory for Long-Horizon Robotic Tasks."
  2. Project website: https://www.pi.website/research/memory
  3. Liu et al. (2026). "RoboMME: Benchmarking and Understanding Memory for Robotic Generalist Policies." arXiv:2603.04639

Comments (0)