《π0.7: a Steerable Generalist Robotic Foundation Model with Emergent Capabilities》深度解读

论文信息 - 作者：Bo Ai, Ali Amin, ..., Sergey Levine 等（Physical Intelligence 团队） - 机构：Physical Intelligence - 发表时间：2025 - 官方链接：https://pi.website/pi07 - PDF：https://www.pi.website/download/pi07.pdf

一句话总结

π0.7（Pi Zero Point Seven）是 Physical Intelligence 推出的可引导（steerable）通用机器人基础模型，通过在训练时为每个样本提供多模态丰富提示（detailed language + episode metadata + subgoal images），解决了大规模多样化数据训练中的歧义问题，使得模型能够组合已有技能解决全新任务，在零样本跨具身迁移、复杂语言指令跟随、开箱即用完成灵巧操作任务等方面展现出涌现能力，性能媲美专门微调的模型。

整体架构（原文图 1）

下图是 π0.7 的完整训练推理架构：

fig1

架构分为两大部分：

训练阶段（上方）

数据来源：同时使用机器人数据和非机器人数据
机器人数据：分为演示数据（人类遥操作）和自主数据（机器人自主收集，包括次优数据和失败数据），每个样本都带有语言指令标注
非机器人数据：分为多模态网络数据（互联网图文数据）和第一人称人类数据（人类日常操作视频），用于扩充数据多样性
多模态提示构造：为每个训练样本构造包含三种信息的提示
语言指令（Language Instructions）：描述任务"做什么"
子目标图像（Subgoal Images）：展示任务要达到的中间/最终目标视觉效果
回合元数据（Episode Metadata）：包括数据质量标注（Quality）、任务长度（Length）等策略相关信息
训练目标：训练得到 π0.7 视觉-语言-动作模型（Vision-Language-Action Model），通过提示实现 steerable（可引导）控制

推理阶段（下方）

输入：用户提供的期望提示（包含语言指令，可选：子目标图像、期望元数据）
处理：高层策略（High-Level Policy）规划 + 世界模型（World Model）预测
输出：机器人动作，直接执行
特点：Out-of-the-Box Performance Without Fine-Tuning — 无需微调，直接在新任务上运行

能力涌现（下方两侧）

左侧：专家级灵巧操作（Specialist-Level Dexterity） — 能完成高精度精细操作
右侧：跨具身迁移（Cross-Embodiment Transfer） — 零样本迁移到从未见过该任务的新机器人本体

背景与动机

基础模型的原理是：大规模多样化数据训练会涌现出通用能力。大语言模型能够组合训练数据中的不同能力解决新问题，但这种组合泛化（compositional generalization）在物理智能领域一直难以实现【原文 §1 Introduction】。

现有的视觉语言动作模型（vision-language-action models, VLAs）虽然在规模和能力上有所进步，但在泛化到新任务或以新方式重组技能方面仍然受限。与大语言模型不同，以往的 VLA 不仅缺乏解决新任务的能力，甚至常常难以流畅完成所有训练过的指令，必须进行任务特定微调（task-specific fine-tuning）【原文 §1 Introduction】。

直接使用多样化数据（包含不同策略、次优数据甚至失败数据、非机器人数据） naive 训练会导致模型对不同模式取平均，产生次优结果。本文的核心洞见是：通过详细的上下文标注不仅告诉模型"做什么"，还告诉它"怎么做"，从而解决多样化数据中的歧义问题【原文 §1 Introduction】。

核心方法

核心思想：多模态提示引导（Diverse Context Conditioning）

π0.7 的核心设计是：在训练时，每个样本的提示（prompt）不仅包含任务描述的语言指令，还包含额外的多模态信息，描述任务应该"以什么方式/策略"完成。这些信息包括： 1. 详细语言标注：比普通指令更细致的描述 2. 回合元数据（episode metadata）：包括数据质量标注（episode quality）、控制模态等策略信息 3. 子目标图像（subgoal images）：可以是真实图像也可以由轻量级世界模型生成【原文 §1 Introduction】

这种设计带来几个好处： - 解决大规模多样化数据中的歧义问题 - 能够从不包含最优行为的数据（包括次优自主数据、失败数据）中学习而不损害性能 - 使得模型能够更有效地组合学到的概念，展现各种涌现能力【原文 §1 Introduction】

模型架构：基于流匹配的 VLA

π0.7 建立在 π0.6-MEM 架构基础上，延续了流式视觉语言动作模型（flow-based VLA）的训练框架： - 骨干网络：预训练视觉语言模型（VLM），使用知识隔离（knowledge insulation）训练，梯度不回传 - 动作专家（action expert）：较小的 Transformer，基于流匹配（flow matching）目标预测动作块（action chunk），捕捉机器人动作的多模态性【原文 §3 Flow-Based Vision-Language-Action Models】

传统 VLA 的上下文只有语言指令 ( C_t = (\ell_t) )，π0.7 扩展了上下文，加入上述额外信息，使得模型能学习利用异构数据【原文 §3 Flow-Based Vision-Language-Action Models】。

训练数据：极度多样化

π0.7 使用了极其多样的数据来源组合： - 多个机器人平台的机器人演示数据 - 自主执行产生的次优数据（包括强化学习后的数据，甚至失败数据） - 人类执行任务的第一人称视角视频 - 来自互联网的通用多模态数据【原文 §1 Introduction】

推理：两阶段流程

推理时使用高级策略（High-Level Policy）+ 世界模型（World Model）的两阶段流程：世界模型负责根据指令生成子目标图像，作为提示提供给 π0.7 策略网络，帮助模型更好地理解目标。

实验与结果

论文在多个维度进行了大量实验，验证 π0.7 的能力：

A. 开箱即用性能（Out-of-the-Box Performance）— 原文图 6

下图比较了 π0.7 与专为每个任务单独训练的专家模型（RL 微调/SFT 微调）在高灵巧任务上的性能：

fig6-7

（上图：图 6 开箱即用性能对比；下图：图 7 消融验证元数据和评估数据的重要性）

测试任务包括：折叠T恤短裤、折叠复杂衣物、制作意式浓缩咖啡、搭建箱子、制作花生酱三明治、衬衫翻面、开门、切西葫芦、削蔬果、倒垃圾等。

结果：π0.7 作为通用模型，开箱即用（无需任何微调），性能几乎和每个任务专属专家模型相当。在折叠复杂衣物和搭建箱子任务上，吞吐量（单位时间成功次数）甚至超过了 RL 专家【原文 Fig 6】。

B. 消融验证：元数据和评估数据的重要性 — 原文图 7

上图（下图）比较了三个变种： - 完整 π0.7（保留所有设计） - π0.7 (no metadata)：Prompt 去掉回合元数据 - π0.7 (no eval data)：训练去掉自主评估数据

结果：完整 π0.7 在所有任务所有指标上都优于两个消融版本，特别是吞吐量下降明显。说明元数据（帮助模型区分不同质量行为）和评估数据（提供更多交互样本）对性能都至关重要【原文 Fig 7】。

C. 指令泛化（Instruction Generalization）

测试了三种难度： 1. 标准对象重排指令：π0.7 已经很好，加入子目标图像后进一步提升 2. 复杂指称指令：比如"拿起我用来喝汤的那个物件"、"拿起最大盘子上的水果"，π0.7 显著优于前代模型【原文 Fig. 10】 3. 违背数据集偏见的指令：比如构造了"Reverse Bussing"（要求把垃圾放进餐具框，餐具放进垃圾桶）和"Reverse Fridge to Microwave"（要求把食物从微波炉放回冰箱，训练数据只有相反方向）。前代模型很难违背数据偏见，但 π0.7 能较好完成，特别是加入子目标图像后【原文 Fig. 11】。

结论：π0.7 语言跟随能力显著提升，足够关注语言信息以克服数据偏见【原文 §4 Experiments】。

D. 跨具身迁移（Cross-Embodiment Transfer）— 原文图 12

这是最具挑战性的测试：零样本将复杂任务从源机器人迁移到从未见过该任务的目标机器人身上。结果见下图：

fig12

实验结论： - 简单任务（摆桌子）：所有模型都能一定程度迁移 - 中等到较大具身差异：π0.5 性能大幅下降，π0.6 和 π0.7 仍然保持良好性能；具身差异越大，π0.7 优势越明显【原文 Fig 12 左侧】 - 复杂灵巧任务（折毛巾、折T恤）：加入子目标生成的 π0.7 (GC) 性能达到人类遥操作者首次尝试水平——人类专家也是第一次在目标机器人上做这个任务【原文 Fig 12 右侧】

值得注意的是：成功迁移通常要求模型发现适合目标机器人形态的新策略，而不只是复制源机器人动作。π0.7 能够自主做到这一点，比如 shorter 双臂机器人必须用一只手按住袋子另一只手放东西，而高 UR5e 单臂可以直接完成 pick-and-place——模型能为每种形态应用合适策略【原文 §4 Cross-embodiment transfer】。

E. 组合任务泛化（Compositional Task Generalization）

测试要求模型以从未见过的新方式组合技能完成新任务：比如把红薯放进空气炸锅（训练数据没有这个任务）。

实验设计：测试集中的任务在训练集中完全没有，但每个所需的子技能在训练集中出现过。结果：π0.7 能够完成这种组合，成功率显著高于前代模型，加入子目标图像进一步提升性能【原文 §4 Compositional task generalization，原文 Fig. 14】。

F. 缩放消融实验（Scaling Ablation）

论文验证了几个关键设计的作用： 1. 多样化提示的作用：移除元数据、子目标图像、详细语言中的任意一个都会损害性能，全都缺性能下降最多【原文 Fig. 17】 2. 数据多样性与缩放性：π0.7 能够随着数据集增大持续进步，即使数据集增大伴随着平均数据质量下降。这说明多样化提示让模型更具可扩展性，能从更大规模（即使质量更低）的数据中受益【原文 Fig. 18】 3. 移除 20% 最高多样性数据 vs 随机移除 20%：移除高多样性数据会显著损害性能，证明模型确实能有效利用高多样性数据提升泛化【原文 Fig. 18】

亮点与局限

亮点： - 方法论创新：将提示工程（prompt engineering）思想引入机器人基础模型训练，通过多模态丰富提示解决多样化数据歧义问题【原文 §3】 - 多项涌现能力：开箱即用完成复杂灵巧任务、复杂语言指令跟随、零样本跨具身迁移、组合技能解决新任务，都超过前代模型【原文 §4】 - 可扩展性：能够受益于更大规模的数据，即使数据平均质量下降，性能仍能提升【原文 §9 Ablation Studies】 - 结果惊人：零样本跨具身迁移折叠T恤，性能匹配人类遥操作初次尝试；能违背数据集偏见完成指令，说明语言理解能力确实提高了【原文 §4】

局限（原文承认的）： - 零样本泛化的成功率仍然低于分布内任务：见过任务成功率超过 90%，而未见任务/未见机器人组合成功率在 60-80% 区间【原文 §10 Discussion】 - 很难界定哪些任务是真正"未见"的：数据集太大，很多泛化可能实际上是"重新混合"已有技能，这与大语言模型的情况类似【原文 §10 Discussion】

局限（解读者补充）： （此为解读者推断，非原文明确表述） - 对数据标注要求更高：每个训练样本都需要详细标注和元数据，数据收集成本更高 - 仍然需要大规模多样数据才能涌现能力，中小规模研究团队难以复现 - 文中没有给出推理速度、参数量等工程细节，实际部署情况待验证

π0.7: a Steerable Generalist Robotic Foundation Model with Emergent Capabilities 深度解读