MEM: Multi-Scale Embodied Memory 深度解读

MEM: Multi-Scale Embodied Memory 深度解读

论文信息
- 作者:Marcel Torne, Karl Pertsch, 等 (Physical Intelligence)
- 发表时间:2026年3月
- 项目主页:https://www.pi.website/research/memory
- PDF:https://www.pi.website/download/Mem.pdf

一句话总结

alt text
本文提出了多尺度具身记忆(Multi-Scale Embodied Memory, MEM),这是一种为视觉语言动作模型(VLAs)配备长短时记忆的混合模态架构,通过短期视频编码保存密集视觉信息、长期语言记忆压缩语义事件,使机器人能够完成长达15分钟的长周期复杂操作任务,如整理厨房、制作烤奶酪三明治等。

背景与动机

传统的端到端机器人学习中,记忆机制通常是将所有过去观测序列直接输入策略网络【原文 Abstract】。但在复杂的多阶段真实世界任务中,机器人需要在不同抽象层次上表示过往事件:

  • 长期记忆:需要记住哪些食谱步骤已经完成(语义抽象)
  • 短期记忆:需要记住被机械臂遮挡后的物体位置(密集观测)

论文指出,简单地将所有历史观测都输入模型在长任务中会变得不可计算,要么只能使用非常短的序列,要么需要大幅降采样【原文 §1 Introduction】。

现有的研究工作存在以下不足:
- 循环记忆(recurrent memory)和Transformer全序列方法难以扩展到非常长的时间范围【原文 §1 Introduction】
- 潜记忆架构仅在短任务上评估【原文 §1 Introduction】
- 各种启发式压缩方法(关键点、纯语言记忆等)都存在局限性:单纯的本体感觉、点迹或自然语言都会丢失精确的空间信息;关键点方法需要剧烈稀疏化,在长期任务中可能丢失信息【原文 §1 Introduction】

核心洞察:有效的记忆架构应该组合多种模态来捕捉不同抽象层次【原文 Abstract】。

核心方法

MEM的核心思想是分而治之:用两种不同的记忆机制分别处理短期和长期需求,组合成多尺度记忆系统。

整体架构

MEM将动作预测分解为两个层次【原文 §III-A Multi-Scale Embodied Memory】:

$$ \begin{aligned} \pi(a_{t:t+H}, l_{t+1}, m_{t+1} | o_{t-K:t}, m_t, g) \\ \approx \pi_{LL}(a_{t:t+H} | o_{t-K:t}, l_{t+1}, g) \cdot \pi_{HL}(l_{t+1}, m_{t+1} | o_t, m_t, g) \end{aligned} $$

其中:
- $\pi_{HL}$(高层策略):维护和更新长期语言记忆$m_{t+1}$,并生成下一个子任务指令$l_{t+1}$
- $\pi_{LL}$(低层策略):基于短期视频记忆$o_{t-K:t}$和子任务指令$l_{t+1}$,预测连续的机器人动作

这个分解使得:
- 长期语义信息通过压缩的语言表示保存,可以跨度十几分钟
- 短期密集视觉观测通过视频编码器处理,保持精确空间信息
- 总计算量可控,满足实时推理延迟要求【原文 §III-A】

长期语言记忆(Long-Term Text Memory)

语言记忆$m_t$是机器人执行任务过程中过往语义事件的自然语言摘要【原文 §III-B】。核心设计:

  1. 增量式更新:高层策略$\pi_{HL}$基于前一个记忆$m_t$、当前观测$o_t$和任务目标$g$,预测更新后的记忆$m_{t+1}$。模型自主决定何时更新以及如何压缩信息【原文 §III-B】。

  2. LLM生成训练标签:训练数据通过现成大语言模型自动生成。将已完成的子任务和成败标签输入LLM,让LLM生成对未来仍相关的信息摘要【原文 §III-B】。

  3. 主动压缩:LLM被指令删除不再需要的信息。例如,不需要记住"我放了一个浅绿色碗、一个深蓝色碗、一个亮黄色碗到右上橱柜",只需要记住"我把三个碗放在右上橱柜"即可,大幅压缩上下文【原文 §III-B】。

这种设计解决了"朴素拼接"方案的痛点:如果简单拼接所有历史子任务指令,推理时会因为失败重复尝试导致分布偏移(训练数据中每个子任务通常只出现一次,推理时可能重复多次)。MEM通过只在成功后更新记忆,减少了这种偏移【原文 §IV-A】。

视频编码器(Dense Short-Term Visual Memory)

为了在保持性能的同时高效压缩数十秒观测,论文对标准ViT(Vision Transformer)进行修改,设计了时空可分离注意力的视频编码器【原文 §III-C】:

  • 结构修改:每4层插入一层时间注意力,将空间注意力和时间注意力分离,复杂度从$O(n^2K^2)$降到$O(Kn^2 + nK^2)$【原文 §III-C】
  • 渐进压缩:在ViT高层丢弃过去时间步的patch,只传递当前时间步的表示给VLA主干,使得token数量与单帧输入相当【原文 §III-C】
  • 零参数初始化:通过修改注意力模式和添加固定正弦位置编码实现,不需要引入新的可学习参数,可以直接从预训练单帧ViT初始化【原文 §III-C】

关键结论:这种设计让推理延迟保持在实时要求(300ms)以内,即使输入16帧总时间超过半分钟的视频,推理时间仍在2.5秒以内,而朴素方法输入8帧就已经超过3秒【原文 Figure 3】。

整合到π0.6 VLA

作者在现有π0.6模型基础上构建了π0.6-MEM:
- 基于Gemma3-4B VLM初始化【原文 §III-D】
- 本体感觉通过线性投影编码,避免长序列文本token爆炸【原文 §III-D】
- 预训练使用混合数据:遥操作演示、策略rollout数据、视频语言数据【原文 §IV-A】

实验与结果

1. 长周期任务测试

在两个极具挑战性的长周期任务测试【原文 §IV-A】:
- 食谱准备:机器人需要从冰箱、橱柜、抽屉中取出食谱指定的所有食材和厨具,放到指定位置,需要记住哪些已经取出、记得关上抽屉柜门,任务时间可达十几分钟
- 厨房清洁:需要擦拭台面、清洗餐具、归位杂物,记住哪些表面已经清洁、是否已经加肥皂等,平均包含8个子任务

实验结果:

方法 平均任务进度
π0.6 (无记忆) ~25%
仅视频记忆 ~38%
仅语言记忆 ~43%
朴素文本+视频记忆 ~48%
π0.6-MEM (Ours) ~70%

结论:两个组件(短期视频记忆 + 长期语言记忆)都是必需的,结合之后性能大幅提升,比单独使用任一组件都高很多【原文 §IV-A】。

2. 上下文内策略适应(In-Context Adaptation)

MEM的短期记忆使得机器人能够从失败中学习,在上下文中调整操作策略【原文 §IV-B】:

测试任务:
- 夹筷子:桌子高度分布外,机器人经常抓不住,人类在失败后给出正确抓取高度演示
- 开冰箱门:铰链在哪一侧不明显,机器人经常从错的方向尝试,人类给出正确方向演示

结果:带记忆的MEM成功率比无记忆基线高11%,从约64%提升到75%【原文 Figure 7】。这说明记忆能让机器人记住之前失败的尝试,并利用这些信息调整策略,而不是重复失败【原文 §IV-B】。

3. 与现有记忆方法对比

在一套覆盖多种核心记忆能力的测试任务上对比:
- 部分可观测性处理(找隐藏物体、交换杯子、拆包装)
- 计数(加两勺咖啡)
- 定时(烤三明治需要等正确时间)
- 空间记忆(擦窗户记住哪些区域已擦)

结果(平均任务进度):
- 无记忆:约40%
- Pool Memory(平均池化压缩):约55%
- Proprio Memory(仅本体记忆):约60%
- Ours (MEM)约78%

MEM是唯一一个在所有测试任务上都表现良好的方法【原文 §IV-C】。

4. 不损失无记忆任务性能

论文验证了添加记忆不会损害不需要记忆的任务:在10个复杂灵巧操作任务上,MEM的性能与最先进的无记忆VLA(π0.6)相当【原文 Figure 10】。这说明MEM的记忆机制不会导致性能退化。

亮点与局限

亮点:
- 【创新架构】提出分尺度多模态记忆架构,短期用密集视频编码,长期用压缩语言摘要,兼顾效率和效果【原文 §1】
- 【工程完整】完整集成到现有VLA(π0.6)中,在真实机器人上验证了长达15分钟任务的可行性【原文 §IV-A】
- 【通用性】不仅能解决长周期任务,还能支持上下文内错误适应,在不需要记忆的任务上也不损失性能【原文 §IV-B, §IV-C】
- 【效率】推理延迟满足实时约束,16帧(54秒)视频输入仍能在2.5秒内完成推理【原文 Figure 3】

局限(原文承认的):
- 目前记忆只持续单个任务回合(episode),无法跨多个任务场景累积知识【原文 §V Conclusion】
- 文章提到未来工作可以探索将记忆扩展到数周、数月、数年,让机器人在部署时持续学习【原文 §V】

局限(解读者补充):
- 语言记忆依赖LLM生成训练标签,虽然自动但仍间接依赖大模型能力(此为解读者推断,非原文明确表述)
- 评估主要在厨房场景,需要在更多不同领域验证泛化性(此为解读者推断,非原文明确表述)

结论

这篇论文是具身智能大模型方向一个非常重要的进展——它实实在在地解决了"机器人如何完成十几分钟长任务"这个关键问题,证明了分尺度多模态记忆是一条可行之路。


附:RoboMME - 机器人通用策略记忆基准测试深度解读

这是同期另一篇关于机器人记忆的重要研究,提供了标准化基准测试,帮助我们系统性理解不同记忆设计的优劣。

论文信息
- 标题:RoboMME: Benchmarking and Understanding Memory for Robotic Generalist Policies
- 作者:Yinpei Dai, Hongze Fu, Jayjun Lee, Yuejiang Liu, Haoran Zhang, Jianing Yang, Chelsea Finn, Nima Fazeli, Joyce Chai
- 机构:密歇根大学、斯坦福大学、Figure AI
- 发表时间:2026年3月
- arxiv:https://arxiv.org/abs/2603.04639
- 项目主页:https://robomme.github.io/


一句话总结

RoboMME 是第一个大规模标准化机器人记忆增强操作基准测试,基于认知心理学将记忆分为时间记忆、空间记忆、物体记忆、程序记忆四大类,共16个任务77万时间步;基于 π0.5 backbone 构建了14种不同记忆增强VLA变体,系统性研究发现没有任何一种记忆表示能在所有任务上都领先,效果高度任务依赖——符号记忆擅长计数和视觉定位,感知记忆对时间敏感行为和运动模仿至关重要。

背景与动机

近年来,VLA(Vision-Language-Action)模型开始整合记忆机制,但评估局限在狭窄、非标准化的设置中【原文 Abstract】。这带来几个问题:

  • 不同记忆设计使用不同 backbone 和评估协议,难以系统性比较
  • 现有基准要么不需要真正的记忆(局部感知就能解决),要么任务简单、几乎已被解决【原文 §1 Introduction】
  • MemoryBench 只有3个简单任务,MIKASA-Robo 都是短范围任务,缺乏大规模高质量演示【原文 §2 Related Work】
  • 因此,缺乏一个能捕捉真实记忆需求的标准化测试集,阻碍了该领域系统性进展【原文 §1】

基准构建:四种记忆类型

论文从认知心理学的经典记忆分类出发【原文 §3.1】,构建了四个任务套件共16个任务:

记忆类型 任务套件 核心能力 示例任务
时间记忆 (Temporal Memory) Counting 积累和排序历史事件 BinFill(数绿色方块放进箱子,到数量就停止)、Pick Swing(按次数摆动)
空间记忆 (Spatial Memory) Permanence 遮挡和场景变化下跟踪物体位置 CubeSwap(交换位置后找出原物体)、HighlightRepick(记住高亮过的物体)
物体记忆 (Object Memory) Reference 跨时间根据引用线索识别物体 VideoButtonPick(记住视频中哪个按钮被按了)、PlaceCube(记住位置放方块)
程序记忆 (Procedural Memory) Imitation 复制之前演示的运动模式 PatternLock(跟着视频画轨迹)、RouteStick(跟着视频绕过障碍物)

总计:1600个演示,770k高质量时间步,足够支持大规模模仿学习【原文 §3.1】。

研究方法:14种记忆增强VLA变体

作者在同一个 π0.5 backbone 上构建了三种不同记忆表示,每种又结合三种整合策略,共14种变体【原文 §4】:

三种记忆表示

  1. 符号记忆 (Symbolic Memory):用可解释的语言子goal表示历史。每一步,辅助VLM根据当前图像和之前的子goal生成下一个子goal。
  2. SimpleSG:纯文字描述(如"pick up the green cube")
  3. GroundSG:带坐标接地(如"pick up the green cube at [63, 152]")
  4. 不同VLM:Gemini-2.5-Pro(零样本)、Qwen3-VL-4B(微调)、Oracle(真值)【原文 §4.1】

  5. 感知记忆 (Perceptual Memory):从过去图像中提取视觉token序列。两种选择策略:

  6. TokenDrop:基于RGB差异移除时间冗余patch
  7. FrameSamp:均匀间隔采样帧【原文 §4.1】

  8. 循环记忆 (Recurrent Memory):通过迭代更新将历史压缩为固定大小隐状态:

  9. TTT(Token-To-Token)
  10. RMT(Recurrent Memory Transformer)【原文 §4.1】

三种整合策略

对于感知记忆和循环记忆,有三种方式整合到VLA中:

  1. memory-as-context:将记忆embedding追加到输入,联合处理
  2. memory-as-modulator:通过自适应 LayerNorm 调节中间激活,条件化action expert
  3. memory-as-expert:添加一个专门的memory expert,通过分块因果注意力与action expert交互【原文 §4】

主要实验结果

核心发现

论文通过系统性实验得到三个关键结论【原文 §5.2 Key Takeaways】:

  1. 没有一种表示或整合策略能在所有任务上都占据主导
  2. 符号记忆在计数和视觉接地任务上表现出色
  3. 感知记忆对时间敏感行为和运动模仿至关重要
  4. memory-as-modulator是感知记忆最有效的整合策略【原文 §5.2】

具体数据分析

人类表现平均 90.50%,各种方法中表现最好的是:FrameSamp+Modul(感知记忆 + memory-as-modulator)达到 55.56% 平均成功率【原文 Table 3】。

按任务分类来看:

方法 Counting Permanence Reference Imitation 平均
π0.5 (无记忆) 49.1 15.0 25.3 19.4 27.2
SimpleSG+QwenVL 85.8 44.7 33.1 22.0 46.4
GroundSG+Oracle 85.8 49.7 49.6 15.6 50.2
FrameSamp+Modul 73.3 55.6 43.9 49.4 55.6
TokenDrop+Modul 73.3 52.8 42.5 45.0 53.4
Recurrent+Modul 68.3 50.0 42.5 42.2 50.8

可以清楚看出:
- 符号记忆在 Counting 任务上远胜其他方法(85.8 vs 73.3)
- 感知记忆在 Imitation 任务上大幅领先(49.4 vs 15.6-22.0)
- 空间和物体记忆任务上,感知记忆也优于符号和循环【原文 Table 3】

整合策略比较

对于感知记忆,三种整合策略对比:
- memory-as-modulator consistently 优于另外两种【原文 §5.2】
- 原因可能是:modulator 不改变原有计算路径,只是调节激活,对原模型破坏较小

与已有方法比较

对比四个现有方法:

方法 平均成功率
π0.5 (no memory) 27.2
π0.5 + past actions (UniVLA) 32.8
SAM2Act+ 35.8
MemER 49.4
FrameSamp+Modul (Ours) 55.6

所有记忆增强方法都优于无记忆基线,证明记忆确实有用,而本文提出的框架取得了最好结果【原文 §5.2】。

亮点与意义

亮点:
- 这是第一个大规模、标准化、多样化的机器人记忆基准,填补了领域空白【原文 §1】
- 基于同一 backbone 系统性比较了14种不同记忆设计,结论可信
- 实证研究得出非常重要的结论:没有万能记忆设计,效果高度任务依赖,这对未来研究有重要指导意义【原文 §5.2】
- 开源了基准和所有模型代码,方便社区继续在此基础上推进【原文 Abstract】

局限(原文承认的):
- 目前所有评估都在仿真环境中进行,还需要在真实机器人上验证【原文 §6 Conclusion】
- 论文只比较了静态设计,没有探索自适应选择记忆机制的可能性【原文 §6】

对领域影响:
- 这个基准将成为未来记忆增强机器人政策研究的标准测试平台
- 结论"效果高度依赖任务类型"提醒研究者:不能指望一种银弹解决所有记忆问题,需要根据任务场景选择合适架构

与 MEM 的关系

Physical Intelligence 的 MEM【前文解读】也是一种混合方法:短期用感知/视频记忆,长期用符号/语言记忆。这正好印证了 RoboMME 的结论——混合方法结合各自优势,符号处理长期语义,感知处理短期细节,分工合作才是正道。

两篇论文互相印证:RoboMME 从基准测试角度验证了"没有单一最优",MEM 从架构创新角度实践了"混合不同记忆类型",共同推进了机器人记忆领域的发展。

Comments (0)