机器人记忆：增强时间决策

概述

本文分解了 Physical Intelligence (PI) 研究项目的 MEM（Multi-scale Embodied Memory，多尺度具身记忆） 方法。MEM 通过维护已做内容、剩余任务和物体位置的结构化记忆，使机器人能够处理长时域任务（长达 15 分钟）。

核心思想

问题：当前机器人能完成简短简单任务，但在清理整个厨房这类长工作中会失败。要完成这些长任务，机器人需要记忆来：

跟踪子任务进度
记住物体位置
避免重复失败尝试
在发生变化时适应

解决方案：多尺度记忆架构，对不同时间尺度使用不同记忆表示。

方法：多尺度具身记忆

三个记忆组件

1. 短期：高效视频编码器

存储并编码最近帧历史
处理即时感官输入
将最近观测压缩为可用嵌入

2. 长期：任务进度的文本"笔记"

用自然语言维护高层符号记忆
由模型主动选择——只存储重要内容
示例："杯子已经放在台面上"，"咖啡豆已经加入"，"窗户左玻璃还脏"
紧凑、人类可读、方便语言模型推理

3. 子任务选择推理

模型根据当前上下文选择要记住什么
根据记忆决定下一步处理哪个子任务
出错时支持上下文内适应

关键设计选择： 混合视频（稠密感知）和文本（稀疏符号）兼得二者之长。视频捕捉文本无法表达的几何和外观。文本紧凑压缩高层进度，能比纯视频方法在更长时域上保持信息。

实验结果

MEM 在六个长时域机器人任务上测试：

任务	描述	时长
交换三个杯子	台面上三个杯子交换位置	~1 分钟
寻找物体	在厨房搜索隐藏物体	~2 分钟
拆分 groceries	将所有 grocery 物品放入正确橱柜	~5 分钟
舀咖啡	用咖啡豆填充咖啡机	~3 分钟
烤奶酪三明治	完整准备烤奶酪三明治	~10 分钟
清洁窗户	清洁整个窗户两面	~15 分钟

基线对比

MEM 在所有任务上都优于所有基线： - 无记忆：纯图像到动作策略，几步之外就失败 - 池化记忆：平均所有帧，丢失时间结构 - 本体记忆：只记住关节位置，错过物体状态 - 完整 MEM：在所有长度任务上获得最高成功率

消融实验

完整 π₀.₆-MEM 模型与各个消融版本对比： - 无记忆：成功率低，尤其在更长任务上 - 仅视频：比无记忆好，但长时域性能仍然下降 - 朴素文本+视频：比之前好，但仍然不如主动选择鲁棒 - 仅文本：缺乏感知细节，空间精确动作失败 - 完整 MEM：最佳整体性能，尤其在 5 分钟以上任务

与基线相比，MEM 随着任务时长增加，性能下降更慢。

关键发现

MEM 支持上下文内适应：机器人能通过回忆哪些尝试失败，在失败后调整策略。
对遮挡和部分可观测性鲁棒：即使物体不可见，记忆仍能保持状态信息。
能处理真正长时域任务：成功完成 10-15 分钟任务，比如做烤奶酪或清洁整个窗户。
多尺度优于单尺度：结合视频（短期稠密）和文本（长期稀疏）优于任何单一表示。
主动选择很重要：让模型选择记住什么比存储一切更好。

为什么这很重要

当今大多数机器人学习关注受控环境中的短时域任务。但要让机器人在真实家庭中有用，它们需要完成长而复杂的任务。记忆就是让这成为可能的缺失组件。

MEM 表明分层多尺度方法有效：不同时间尺度需要不同记忆表示。近期过去使用稠密感知压缩，长期使用稀疏符号笔记。

**项目主页：** 更多详情见 <https://www.pi.website/research/memory> **论文 PDF：** <https://www.pi.website/download/Mem.pdf>

记忆方法分类

最近，RoboMME 为评估 VLA 模型中的记忆提供了全面基准和分类。他们沿两个维度对记忆方法分类：

按认知功能（任务类型）

功能分类（记忆的用途）

时间记忆：跟踪事件计数、顺序排序，何时转换到下一个子任务。示例："窗户需要擦三遍"。
空间记忆：即使物体被遮挡也保持物体位置。示例："我之前把杯子放那里了，现在它在箱子后面，但我仍记得位置"。
物体记忆：随时间保持引用一致性。示例：即使有相似物体，仍持续跟踪哪个是"红杯子"。
过程记忆：存储演示运动模式用于模仿。示例：回忆上次你成功翻煎饼是怎么做的。

表示分类（记忆如何存储）

符号化：使用离散自然语言 tokens 存储记忆。紧凑、人类可读、适合高层事实。MEM 对长期记忆使用这种方法。
感知型：存储过去帧中选择的视觉 tokens。两种常见选择策略：
Token 丢弃：基于 RGB 差异移除冗余 patch
均匀采样：从历史中均匀采样帧
循环：使用循环神经网络（LSTM/GRU）维护隐状态。端到端可微，但在极长序列上会遗忘。

RoboMME 的关键发现

RoboMME 的主要实验发现是没有单一记忆方法在所有任务上占优。效果取决于任务类型：

符号记忆在时间和物体记忆任务上表现出色，因为计数和引用自然是符号化的
带 grounding 的感知记忆在精确视觉上下文很重要的空间任务上效果更好
循环记忆简单，但在极长序列上性能下降

MEM 正好符合这个分类中的混合方法：它对短期记忆使用感知/视频编码，对长期记忆使用符号/文本，结合了两种表示的优点。

参考文献

Physical Intelligence (PI) Research. (2024). "MEM: Multi-scale Embodied Memory for Long-Horizon Robotic Tasks."
Project website: https://www.pi.website/research/memory
Liu et al. (2026). "RoboMME: Benchmarking and Understanding Memory for Robotic Generalist Policies." arXiv:2603.04639

memory_for_robotics