MEM: Multi-Scale Embodied Memory 深度解读

论文信息
- 作者：Marcel Torne, Karl Pertsch, 等 (Physical Intelligence)
- 发表时间：2026年3月
- 项目主页：https://www.pi.website/research/memory
- PDF：https://www.pi.website/download/Mem.pdf

一句话总结

alt text
本文提出了多尺度具身记忆（Multi-Scale Embodied Memory, MEM），这是一种为视觉语言动作模型（VLAs）配备长短时记忆的混合模态架构，通过短期视频编码保存密集视觉信息、长期语言记忆压缩语义事件，使机器人能够完成长达15分钟的长周期复杂操作任务，如整理厨房、制作烤奶酪三明治等。

背景与动机

传统的端到端机器人学习中，记忆机制通常是将所有过去观测序列直接输入策略网络【原文 Abstract】。但在复杂的多阶段真实世界任务中，机器人需要在不同抽象层次上表示过往事件：

长期记忆：需要记住哪些食谱步骤已经完成（语义抽象）
短期记忆：需要记住被机械臂遮挡后的物体位置（密集观测）

论文指出，简单地将所有历史观测都输入模型在长任务中会变得不可计算，要么只能使用非常短的序列，要么需要大幅降采样【原文 §1 Introduction】。

现有的研究工作存在以下不足：
- 循环记忆（recurrent memory）和Transformer全序列方法难以扩展到非常长的时间范围【原文 §1 Introduction】
- 潜记忆架构仅在短任务上评估【原文 §1 Introduction】
- 各种启发式压缩方法（关键点、纯语言记忆等）都存在局限性：单纯的本体感觉、点迹或自然语言都会丢失精确的空间信息；关键点方法需要剧烈稀疏化，在长期任务中可能丢失信息【原文 §1 Introduction】

核心洞察：有效的记忆架构应该组合多种模态来捕捉不同抽象层次【原文 Abstract】。

核心方法

MEM的核心思想是分而治之：用两种不同的记忆机制分别处理短期和长期需求，组合成多尺度记忆系统。

整体架构

MEM将动作预测分解为两个层次【原文 §III-A Multi-Scale Embodied Memory】：

$$ \begin{aligned} \pi(a_{t:t+H}, l_{t+1}, m_{t+1} | o_{t-K:t}, m_t, g) \\ \approx \pi_{LL}(a_{t:t+H} | o_{t-K:t}, l_{t+1}, g) \cdot \pi_{HL}(l_{t+1}, m_{t+1} | o_t, m_t, g) \end{aligned} $$

其中：
- $\pi_{HL}$（高层策略）：维护和更新长期语言记忆$m_{t+1}$，并生成下一个子任务指令$l_{t+1}$
- $\pi_{LL}$（低层策略）：基于短期视频记忆$o_{t-K:t}$和子任务指令$l_{t+1}$，预测连续的机器人动作

这个分解使得：
- 长期语义信息通过压缩的语言表示保存，可以跨度十几分钟
- 短期密集视觉观测通过视频编码器处理，保持精确空间信息
- 总计算量可控，满足实时推理延迟要求【原文 §III-A】

长期语言记忆（Long-Term Text Memory）

语言记忆$m_t$是机器人执行任务过程中过往语义事件的自然语言摘要【原文 §III-B】。核心设计：

增量式更新：高层策略$\pi_{HL}$基于前一个记忆$m_t$、当前观测$o_t$和任务目标$g$，预测更新后的记忆$m_{t+1}$。模型自主决定何时更新以及如何压缩信息【原文 §III-B】。
LLM生成训练标签：训练数据通过现成大语言模型自动生成。将已完成的子任务和成败标签输入LLM，让LLM生成对未来仍相关的信息摘要【原文 §III-B】。
主动压缩：LLM被指令删除不再需要的信息。例如，不需要记住"我放了一个浅绿色碗、一个深蓝色碗、一个亮黄色碗到右上橱柜"，只需要记住"我把三个碗放在右上橱柜"即可，大幅压缩上下文【原文 §III-B】。

这种设计解决了"朴素拼接"方案的痛点：如果简单拼接所有历史子任务指令，推理时会因为失败重复尝试导致分布偏移（训练数据中每个子任务通常只出现一次，推理时可能重复多次）。MEM通过只在成功后更新记忆，减少了这种偏移【原文 §IV-A】。

视频编码器（Dense Short-Term Visual Memory）

为了在保持性能的同时高效压缩数十秒观测，论文对标准ViT（Vision Transformer）进行修改，设计了时空可分离注意力的视频编码器【原文 §III-C】：

结构修改：每4层插入一层时间注意力，将空间注意力和时间注意力分离，复杂度从$O(n^2K^2)$降到$O(Kn^2 + nK^2)$【原文 §III-C】
渐进压缩：在ViT高层丢弃过去时间步的patch，只传递当前时间步的表示给VLA主干，使得token数量与单帧输入相当【原文 §III-C】
零参数初始化：通过修改注意力模式和添加固定正弦位置编码实现，不需要引入新的可学习参数，可以直接从预训练单帧ViT初始化【原文 §III-C】

关键结论：这种设计让推理延迟保持在实时要求（300ms）以内，即使输入16帧总时间超过半分钟的视频，推理时间仍在2.5秒以内，而朴素方法输入8帧就已经超过3秒【原文 Figure 3】。

整合到π0.6 VLA

作者在现有π0.6模型基础上构建了π0.6-MEM：
- 基于Gemma3-4B VLM初始化【原文 §III-D】
- 本体感觉通过线性投影编码，避免长序列文本token爆炸【原文 §III-D】
- 预训练使用混合数据：遥操作演示、策略rollout数据、视频语言数据【原文 §IV-A】

实验与结果

1. 长周期任务测试

在两个极具挑战性的长周期任务测试【原文 §IV-A】：
- 食谱准备：机器人需要从冰箱、橱柜、抽屉中取出食谱指定的所有食材和厨具，放到指定位置，需要记住哪些已经取出、记得关上抽屉柜门，任务时间可达十几分钟
- 厨房清洁：需要擦拭台面、清洗餐具、归位杂物，记住哪些表面已经清洁、是否已经加肥皂等，平均包含8个子任务

实验结果：

方法	平均任务进度
π0.6 (无记忆)	~25%
仅视频记忆	~38%
仅语言记忆	~43%
朴素文本+视频记忆	~48%
π0.6-MEM (Ours)	~70%

结论：两个组件（短期视频记忆 + 长期语言记忆）都是必需的，结合之后性能大幅提升，比单独使用任一组件都高很多【原文 §IV-A】。

2. 上下文内策略适应（In-Context Adaptation）

MEM的短期记忆使得机器人能够从失败中学习，在上下文中调整操作策略【原文 §IV-B】：

测试任务：
- 夹筷子：桌子高度分布外，机器人经常抓不住，人类在失败后给出正确抓取高度演示
- 开冰箱门：铰链在哪一侧不明显，机器人经常从错的方向尝试，人类给出正确方向演示

结果：带记忆的MEM成功率比无记忆基线高11%，从约64%提升到75%【原文 Figure 7】。这说明记忆能让机器人记住之前失败的尝试，并利用这些信息调整策略，而不是重复失败【原文 §IV-B】。

3. 与现有记忆方法对比

在一套覆盖多种核心记忆能力的测试任务上对比：
- 部分可观测性处理（找隐藏物体、交换杯子、拆包装）
- 计数（加两勺咖啡）
- 定时（烤三明治需要等正确时间）
- 空间记忆（擦窗户记住哪些区域已擦）

结果（平均任务进度）：
- 无记忆：约40%
- Pool Memory（平均池化压缩）：约55%
- Proprio Memory（仅本体记忆）：约60%
- Ours (MEM)：约78%

MEM是唯一一个在所有测试任务上都表现良好的方法【原文 §IV-C】。

4. 不损失无记忆任务性能

论文验证了添加记忆不会损害不需要记忆的任务：在10个复杂灵巧操作任务上，MEM的性能与最先进的无记忆VLA（π0.6）相当【原文 Figure 10】。这说明MEM的记忆机制不会导致性能退化。

亮点与局限

亮点：
- 【创新架构】提出分尺度多模态记忆架构，短期用密集视频编码，长期用压缩语言摘要，兼顾效率和效果【原文 §1】
- 【工程完整】完整集成到现有VLA（π0.6）中，在真实机器人上验证了长达15分钟任务的可行性【原文 §IV-A】
- 【通用性】不仅能解决长周期任务，还能支持上下文内错误适应，在不需要记忆的任务上也不损失性能【原文 §IV-B, §IV-C】
- 【效率】推理延迟满足实时约束，16帧（54秒）视频输入仍能在2.5秒内完成推理【原文 Figure 3】

局限（原文承认的）：
- 目前记忆只持续单个任务回合（episode），无法跨多个任务场景累积知识【原文 §V Conclusion】
- 文章提到未来工作可以探索将记忆扩展到数周、数月、数年，让机器人在部署时持续学习【原文 §V】

局限（解读者补充）：
- 语言记忆依赖LLM生成训练标签，虽然自动但仍间接依赖大模型能力（此为解读者推断，非原文明确表述）
- 评估主要在厨房场景，需要在更多不同领域验证泛化性（此为解读者推断，非原文明确表述）

结论

这篇论文是具身智能大模型方向一个非常重要的进展——它实实在在地解决了"机器人如何完成十几分钟长任务"这个关键问题，证明了分尺度多模态记忆是一条可行之路。

附：RoboMME - 机器人通用策略记忆基准测试深度解读

这是同期另一篇关于机器人记忆的重要研究，提供了标准化基准测试，帮助我们系统性理解不同记忆设计的优劣。

论文信息
- 标题：RoboMME: Benchmarking and Understanding Memory for Robotic Generalist Policies
- 作者：Yinpei Dai, Hongze Fu, Jayjun Lee, Yuejiang Liu, Haoran Zhang, Jianing Yang, Chelsea Finn, Nima Fazeli, Joyce Chai
- 机构：密歇根大学、斯坦福大学、Figure AI
- 发表时间：2026年3月
- arxiv：https://arxiv.org/abs/2603.04639
- 项目主页：https://robomme.github.io/

一句话总结

RoboMME 是第一个大规模标准化机器人记忆增强操作基准测试，基于认知心理学将记忆分为时间记忆、空间记忆、物体记忆、程序记忆四大类，共16个任务77万时间步；基于 π0.5 backbone 构建了14种不同记忆增强VLA变体，系统性研究发现没有任何一种记忆表示能在所有任务上都领先，效果高度任务依赖——符号记忆擅长计数和视觉定位，感知记忆对时间敏感行为和运动模仿至关重要。

背景与动机

近年来，VLA（Vision-Language-Action）模型开始整合记忆机制，但评估局限在狭窄、非标准化的设置中【原文 Abstract】。这带来几个问题：

不同记忆设计使用不同 backbone 和评估协议，难以系统性比较
现有基准要么不需要真正的记忆（局部感知就能解决），要么任务简单、几乎已被解决【原文 §1 Introduction】
MemoryBench 只有3个简单任务，MIKASA-Robo 都是短范围任务，缺乏大规模高质量演示【原文 §2 Related Work】
因此，缺乏一个能捕捉真实记忆需求的标准化测试集，阻碍了该领域系统性进展【原文 §1】

基准构建：四种记忆类型

论文从认知心理学的经典记忆分类出发【原文 §3.1】，构建了四个任务套件共16个任务：

记忆类型	任务套件	核心能力	示例任务
时间记忆 (Temporal Memory)	Counting	积累和排序历史事件	BinFill（数绿色方块放进箱子，到数量就停止）、Pick Swing（按次数摆动）
空间记忆 (Spatial Memory)	Permanence	遮挡和场景变化下跟踪物体位置	CubeSwap（交换位置后找出原物体）、HighlightRepick（记住高亮过的物体）
物体记忆 (Object Memory)	Reference	跨时间根据引用线索识别物体	VideoButtonPick（记住视频中哪个按钮被按了）、PlaceCube（记住位置放方块）
程序记忆 (Procedural Memory)	Imitation	复制之前演示的运动模式	PatternLock（跟着视频画轨迹）、RouteStick（跟着视频绕过障碍物）

总计：1600个演示，770k高质量时间步，足够支持大规模模仿学习【原文 §3.1】。

研究方法：14种记忆增强VLA变体

作者在同一个 π0.5 backbone 上构建了三种不同记忆表示，每种又结合三种整合策略，共14种变体【原文 §4】：

三种记忆表示

符号记忆 (Symbolic Memory)：用可解释的语言子goal表示历史。每一步，辅助VLM根据当前图像和之前的子goal生成下一个子goal。
SimpleSG：纯文字描述（如"pick up the green cube"）
GroundSG：带坐标接地（如"pick up the green cube at [63, 152]"）
不同VLM：Gemini-2.5-Pro（零样本）、Qwen3-VL-4B（微调）、Oracle（真值）【原文 §4.1】
感知记忆 (Perceptual Memory)：从过去图像中提取视觉token序列。两种选择策略：
TokenDrop：基于RGB差异移除时间冗余patch
FrameSamp：均匀间隔采样帧【原文 §4.1】
循环记忆 (Recurrent Memory)：通过迭代更新将历史压缩为固定大小隐状态：
TTT（Token-To-Token）
RMT（Recurrent Memory Transformer）【原文 §4.1】

三种整合策略

对于感知记忆和循环记忆，有三种方式整合到VLA中：

memory-as-context：将记忆embedding追加到输入，联合处理
memory-as-modulator：通过自适应 LayerNorm 调节中间激活，条件化action expert
memory-as-expert：添加一个专门的memory expert，通过分块因果注意力与action expert交互【原文 §4】

主要实验结果

核心发现

论文通过系统性实验得到三个关键结论【原文 §5.2 Key Takeaways】：

没有一种表示或整合策略能在所有任务上都占据主导
符号记忆在计数和视觉接地任务上表现出色
感知记忆对时间敏感行为和运动模仿至关重要
memory-as-modulator是感知记忆最有效的整合策略【原文 §5.2】

具体数据分析

人类表现平均 90.50%，各种方法中表现最好的是：FrameSamp+Modul（感知记忆 + memory-as-modulator）达到 55.56% 平均成功率【原文 Table 3】。

按任务分类来看：

方法	Counting	Permanence	Reference	Imitation	平均
π0.5 (无记忆)	49.1	15.0	25.3	19.4	27.2
SimpleSG+QwenVL	85.8	44.7	33.1	22.0	46.4
GroundSG+Oracle	85.8	49.7	49.6	15.6	50.2
FrameSamp+Modul	73.3	55.6	43.9	49.4	55.6
TokenDrop+Modul	73.3	52.8	42.5	45.0	53.4
Recurrent+Modul	68.3	50.0	42.5	42.2	50.8

可以清楚看出：
- 符号记忆在 Counting 任务上远胜其他方法（85.8 vs 73.3）
- 感知记忆在 Imitation 任务上大幅领先（49.4 vs 15.6-22.0）
- 空间和物体记忆任务上，感知记忆也优于符号和循环【原文 Table 3】

整合策略比较

对于感知记忆，三种整合策略对比：
- memory-as-modulator consistently 优于另外两种【原文 §5.2】
- 原因可能是：modulator 不改变原有计算路径，只是调节激活，对原模型破坏较小

与已有方法比较

对比四个现有方法：

方法	平均成功率
π0.5 (no memory)	27.2
π0.5 + past actions (UniVLA)	32.8
SAM2Act+	35.8
MemER	49.4
FrameSamp+Modul (Ours)	55.6

所有记忆增强方法都优于无记忆基线，证明记忆确实有用，而本文提出的框架取得了最好结果【原文 §5.2】。

亮点与意义

亮点：
- 这是第一个大规模、标准化、多样化的机器人记忆基准，填补了领域空白【原文 §1】
- 基于同一 backbone 系统性比较了14种不同记忆设计，结论可信
- 实证研究得出非常重要的结论：没有万能记忆设计，效果高度任务依赖，这对未来研究有重要指导意义【原文 §5.2】
- 开源了基准和所有模型代码，方便社区继续在此基础上推进【原文 Abstract】

局限（原文承认的）：
- 目前所有评估都在仿真环境中进行，还需要在真实机器人上验证【原文 §6 Conclusion】
- 论文只比较了静态设计，没有探索自适应选择记忆机制的可能性【原文 §6】

对领域影响：
- 这个基准将成为未来记忆增强机器人政策研究的标准测试平台
- 结论"效果高度依赖任务类型"提醒研究者：不能指望一种银弹解决所有记忆问题，需要根据任务场景选择合适架构

与 MEM 的关系

Physical Intelligence 的 MEM【前文解读】也是一种混合方法：短期用感知/视频记忆，长期用符号/语言记忆。这正好印证了 RoboMME 的结论——混合方法结合各自优势，符号处理长期语义，感知处理短期细节，分工合作才是正道。

两篇论文互相印证：RoboMME 从基准测试角度验证了"没有单一最优"，MEM 从架构创新角度实践了"混合不同记忆类型"，共同推进了机器人记忆领域的发展。

MEM: Multi-Scale Embodied Memory 深度解读

MEM: Multi-Scale Embodied Memory 深度解读

一句话总结

背景与动机

核心方法

整体架构

长期语言记忆（Long-Term Text Memory）

视频编码器（Dense Short-Term Visual Memory）

整合到π0.6 VLA

实验与结果

1. 长周期任务测试

2. 上下文内策略适应（In-Context Adaptation）

3. 与现有记忆方法对比

4. 不损失无记忆任务性能

亮点与局限

结论

附：RoboMME - 机器人通用策略记忆基准测试深度解读

一句话总结

背景与动机

基准构建：四种记忆类型

研究方法：14种记忆增强VLA变体

三种记忆表示

三种整合策略

主要实验结果

核心发现

具体数据分析

整合策略比较

与已有方法比较

亮点与意义

与 MEM 的关系

Comments (0)