MemoryHub:机器人层次化记忆枢纽

MemoryHub:机器人层次化记忆枢纽

侯世达与桑德尔在《表象与本质》中有一个核心论断:人类大脑中的每个概念,都来源于多年来不知不觉积累的一长串类比。理解一件新事物,本质上是在已知事物中找到一个可以映射过去的结构。MemoryHub 试图为机器人构建同样的能力——不是让它死记硬背每一个动作序列,而是让它真正记住经验的本质,在新场景中找到类比,进而行动。


一、问题的起点:机器人为什么"记不住"

侯世达在《表象与本质》里讲过一个细节。他在意大利访学时,每天在走廊里遇到同事,不知道该用 CiaoSalve 还是 Buongiorno 打招呼。他的解决方法是:找到每个类别里最典型的几个人作为原型,再把新遇到的人与这些原型做类比——"这个人和那个卷发行政员的熟悉程度差不多,所以说 Salve。"

这个过程看似平凡,却是人类认知的核心机制:通过少数具体经验,建立起可以向外延伸的范畴;在遇到新情况时,迅速找到最相近的原型,完成映射

当前机器人系统的根本缺陷,正在于无法做到这一点。它们拥有大量演示数据,却无法从中提炼出可迁移的本质。每条 [image_t, lang_t, action_t] 序列都是孤立的表象,没有建立起"这个厨房的抓杯子"与"那个厨房的抓杯子"之间的内在联系。换句话说,机器人没有真正意义上的记忆,只有数据。

MemoryHub 要解决的,就是这个从数据到记忆的跨越。


二、表象与本质的分离:MemoryHub 的核心洞见

《表象与本质》中有一个关于伽利略的故事。1610年,他用望远镜观察木星,发现了几个绕木星运动的光点。其他人看到的是"几个光点",伽利略看到的却是"另一个地球和它的月亮"。关键不在于视网膜接收了什么,而在于他在木星-光点系统与地球-月球系统之间建立了一个类比:剥离了大小、距离、亮度这些表象,保留了"大天体被小天体环绕"这个本质关系

MemoryHub 的五阶段流水线,做的正是类似的事——对每一份机器人演示数据,系统地剥离表象,提炼本质:

原始演示数据(表象的海洋)
    ↓
[阶段一] 多模态分析 ——— 提取"这里有什么,在哪里,发生了什么"
    ↓
[阶段二] Agent 层次化整理 ——— 将扁平数据组织为有结构的范畴
    ↓
[阶段三] SLAM 几何 Grounding ——— 为每个记忆绑定物理坐标
    ↓
[阶段四] Scene/Skill Graph 构建 ——— 建立记忆节点间的关系网络
    ↓
[阶段五] Textbook 生成 ——— 输出可跨场景迁移的执行配方

每一步都在做同一件事:从特殊中提取普遍,从当下这个厨房里找到所有厨房共有的结构。

阶段一:多模态语义分析

系统同步运行四条提取路径:

  • 视觉语义:场景中"有什么"(物体检测、分类、分割)
  • 几何信息:物体"在哪里"(相机位姿、深度、点云)
  • 动作语义:"发生了什么"(关节轨迹、接触点)
  • 语言 grounding:"意味着什么"(指令与视觉动作对齐)

这一阶段的产出是 Affordance Map——将每个物体区域标注为可抓取、可推动、可倾倒等交互可能性。Affordance 的概念本身就是一种"本质提取":它忽略物体的颜色、品牌、材质,只关心"这个物体能被怎样操作"这一核心关系。

阶段二:Agent 驱动的层次化记忆

侯世达和桑德尔指出,概念的结构类似于一座城市:有市中心(最典型、最常用的原型),有市区(稍微边缘但仍常见的实例),有郊区(那些只在特定语境下才被识别的用法)。

MemoryHub 的四层记忆结构正是这种层次性的工程化实现:

场景级  (Scene Level)
  └─ 物体级  (Object Level)
        └─ 技能级  (Skill Level)
              └─ 动作级  (Action Level)

AI Agent 在整理数据时,做的是人类无意识完成的工作:合并相似技能(把不同厨房里"打开抽屉"的演示归入同一原型),拆分过度复杂的技能("做咖啡"不是单一技能,而是由多个原子技能构成的序列),消解不一致标注(两次演示都叫"抓杯子",但具体姿态不同,找出其本质共性)。

每个层级保留三类信息:层级间关联、SLAM 提供的 6DoF 几何锚点、演示次数与成功率统计。

阶段三:SLAM 几何 Grounding

这是 MemoryHub 区别于纯语言记忆系统的关键所在。

《表象与本质》区分了两种知识:纯粹的语言概念("把杯子放到桌子上")与嵌入身体经验的具身知识(手指如何感知杯子边缘的压力、手腕旋转的角度)。语言规划告诉你"做什么",但无法告诉你"在哪里做"。

SLAM 提供的正是这个"在哪里"的维度。它为记忆中的每一个节点绑定精确的 6DoF 位姿,使得:

需要"在哪里"的能力 SLAM 的贡献
跨会话记忆复用 场景全局坐标系,上次建立的记忆本次直接可用
部分可观测性鲁棒性 即使当前视野看不到某物体,地图仍知道它在哪里
增量更新 只更新变化部分,无需重构全量记忆

阶段四:Scene/Skill Graph 构建

图结构将记忆从"一堆节点"变为"有关系的网络"——正如《表象与本质》所说,概念从来不是孤立存在的,它总是通过与其他概念的关系来界定自身。

  • Scene Graph:节点为物体,边为空间关系("on top of"、"inside"),使机器人可以推理:"要拿桌上的杯子,必须先到达桌子位置"
  • Skill Graph:节点为技能原语,边为先后依赖,使系统可以理解:"倒咖啡"依赖于"打开咖啡罐"已完成

阶段五:Textbook——可迁移的任务配方

最终产物是一份 Robot Textbook,将抽象的技能知识与具体的物理坐标绑定在一起:

# 任务:制作咖啡

## 前置条件
- 场景:厨房吧台
- 物体:咖啡壶   [位姿: xyz, 四元数]
- 物体:咖啡豆罐 [位姿: xyz, 四元数]

## 技能步骤
1. 打开咖啡豆罐
   - 作用物体:咖啡豆罐盖子 · 抓取点 [xyz] · 扭矩 < 5Nm
   - 预期结果:盖子打开
2. 倒入咖啡豆
   ...

执行时:加载 Textbook → SLAM 在当前场景重定位物体 → 按步骤执行 → 结果反馈回 MemoryHub 更新统计。这个循环,和人类在一个新厨房里做咖啡的过程高度一致:调用已有的"做咖啡"经验,根据当前厨房的实际布局做调整,再把这次经验纳入记忆。


三、类比的飞轮:RL 如何让记忆自我增殖

《表象与本质》中有一个关于范畴扩展的洞见:概念的边界不是固定的,而是通过一次次类比向外延伸。昨日的郊区,因为足够多的人开始在那里生活,就成了今日的市区。每一次类比都在扩大概念的覆盖范围。

RL 数据飞轮正是这个过程的工程化实现。

人类演示数据是 MemoryHub 的"市中心":典型场景、标准动作、高频技能。这些构成了 L1-L3 记忆的核心原型。但人类采集数据的方式决定了它的局限:人会选择最自然、最顺手的路径,边角情况(物体被部分遮挡、场景轻微变动、机器人姿态略有偏差)往往欠缺覆盖。

RL synthesis 在 L1 几何约束(不能穿墙、不能违反物理)和 L2 语义引导(知道"这是个杯子,应该怎么握")的双重约束下,主动探索那些"郊区":

  • 生成轨迹 → 验证几何合法性(不穿越占据栅格)→ 验证语义合理性(符合 Affordance 定义)
  • 合格轨迹写入 L3 作为新的 episodic entries,更新 L4 policy representations

每一轮循环,记忆的"市区"都在向外扩展。这不是随机的数据增广,而是有结构引导的类比扩展——新数据必须与已有记忆建立关系,才能被整合进去。

三个保证飞轮质量的属性

  • 几何接地:合成轨迹被 L1 占据图验证,不产生幻觉几何
  • 记忆复利:每轮 RL 循环都为下一轮提供更丰富的起点
  • 多样性探索:主动发现人类演示中欠缺覆盖的边角情况

四、MemoryHub 与现有方法的定位

《表象与本质》中有一个细节:新概念一旦形成,会反过来改变孕育它的旧概念。枢纽机场这个概念,不仅依赖于"机场",还反过来改变了人们对机场大小、城市与机场关系的理解。知识是双向流动的。

MemoryHub 与现有各类方法的关系,正是这种双向的整合,而非单向的替代:

方法 贡献 MemoryHub 的角色
VLA 端到端学习 从原始数据直接学习动作策略 提供结构化记忆先验,降低样本复杂度
SLAM + 语义建图 构建几何-语义一致地图 进一步抽象到技能层次,生成可执行配方
LLM 任务规划 自然语言任务分解 提供几何绑定,将抽象计划落地到物理世界
手工技能库 编码可复用动作原语 从演示自动提炼,规模化构建技能库

MemoryHub 是整合层:将上述各方的输出统一到同一个层次化记忆结构中,使它们相互增强而非各自为政。


五、三种使用模式

离线预构建 · 在线复用:收集 100 个不同厨房的演示数据 → MemoryHub 离线处理 → 生成通用厨房技能 Textbook → 部署到新厨房时,SLAM 重定位匹配场景 → 直接复用已有技能,无需重新训练。

增量学习:机器人遇到未见过的场景 → 请求人类补充演示 → MemoryHub 增量处理,将新技能整合到现有层次结构 → 立即可用。

人类在环编辑:人类专家直接编辑 Scene Graph 或 Textbook → 修改自动传播到所有依赖节点 → 无需重训整个模型。


六、Memory as a Service:商业化路径

Physical Intelligence 的 π 项目近期推出了 MEM(Memory-based Manipulation),印证了记忆架构正在成为机器人学习的新前沿:短期记忆压缩近期帧历史,长期记忆维护跨时序上下文,已能处理长达 15 分钟的连续任务。

MEM 解决了模型侧问题。它揭示的数据侧瓶颈——如何规模化收集具有记忆结构的训练数据——才是 XRollout 的切入点。

侯世达在书中说:概念的成熟,需要数百万人在数十年乃至上千年中合力完成无数次类比扩展。机器人领域的记忆数据集,正处于这个过程的最开端。没有人在系统性地做这件事,而 SLAM 流水线天然输出时空一致的世界状态序列——这正是记忆架构所需要的训练信号。

机会金字塔

第一层:记忆结构化数据集(即时可行)

有意收集并打包具有记忆结构的训练数据:

  • 跨会话场景数据:同一厨房,不同日期,物体移动/添加/移除——训练"场景变化感知"所需的长期记忆数据
  • 中断恢复标注数据:人类执行 10-20 分钟任务,中途中断后恢复——MEM 类模型最核心的训练场景
  • SLAM + 语义捆绑数据:每条轨迹携带 6DoF 位姿、3D 点云和持久物体 ID

目标客户:π、字节跳动、华为、Figure 等自身难以规模化采集此类数据的基础模型公司。

第二层:场景记忆即服务(可规模化)

对已部署机器人的客户(餐厅、仓库、医院)提供持续的记忆维护:用 SLAM 构建初始语义地图,持续采集人工检查数据增量更新,向机器人输出结构化记忆上下文("B 货架今天已重新整理"、"3 号操作台暂停使用")。按场景按月计费。

第三层:记忆评估基准(长期护城河)

机器人记忆领域目前缺乏标准化基准。用 SLAM 创建可复现的受控场景快照,定义评估协议,向模型公司开放评估。随时间积累数据资产与评估话语权——成为所有人测试新型记忆架构的标准化场所。

三层商业模型总览

层级 产品 目标客户 营收模式
1 记忆结构化数据集 基础模型团队 按数据集授权
2 场景记忆即服务 机器人部署商 月度订阅
3 记忆评估基准 整个社区 评估费用 + 数据护城河

七、结语:机器人需要自己的教科书

《表象与本质》的结论是:人类不是通过学习规则来理解世界的,而是通过积累有结构的经验,在遇到新事物时找到最相近的类比。这个过程不需要显式编程,是认知的自然涌现。

MemoryHub 的目标,是让机器人也拥有同样的能力:从演示中提炼出带有几何锚点的层次化技能记忆,在新场景中通过类比迅速找到可用的经验,再将每一次新的经历整合回记忆,让记忆不断生长。

机器人最终需要从经验中构建自己的教科书。MemoryHub 就是让这个过程规模化的枢纽。


完整技术文档及后续更新: xrollout.org/blog/memory-hub.zh

我会在网站持续更新 MemoryHub 的工程实现细节和开源进展,欢迎收藏关注。

Comments (0)