π0.7:具有涌现能力的可引导通用机器人基础模型(中文全译)

π0.7:具有涌现能力的可引导通用机器人基础模型

作者:Bo Ai, Ali Amin, Raichelle Aniceto, Ashwin Balakrishna, Greg Balke, Kevin Black, George Bokinsky, Shihao Cao, Thomas Charbonnier, Vedant Choudhary, Foster Collins, Ken Conley, Grace Connors, James Darpinian, Karan Dhabalia, Maitrayee Dhaka, Jared DiCarlo, Danny Driess, Michael Equi, Adnan Esmail, Yunhao Fang, Chelsea Finn, Catherine Glossop, Thomas Godden, Ivan Goryachev, Lachlan Groom, Haroun Habeeb, Hunter Hancock, Karol Hausman, Gashon Hussein, Victor Hwang, Brian Ichter, Connor Jacobsen, Szymon Jakubczak, Rowan Jen, Tim Jones, Gregg Kammerer, Ben Katz, Liyiming Ke, Mairbek Khadikov, Chandra Kuchi, Marinda Lamb, Devin LeBlanc, Brendon LeCount, Sergey Levine, Xinyu Li, Adrian Li-Bell, Vladislav Lialin, Zhonglin Liang, Wallace Lim, Yao Lu, Enyu Luo, Vishnu Mano, Nandan Marwaha, Aikys Mongush, Liam Murphy, Suraj Nair, Tyler Patterson, Karl Pertsch, Allen Z. Ren, Gavin Schelske, Charvi Sharma, Baifeng Shi, Lucy Xiaoyang Shi, Laura Smith, Jost Tobias Springenberg, Kyle Stachowicz, Will Stoeckle, Jiaming Tang, Jimmy Tanner, Shalom Tekeste, Marcel Torne, Kyle Vedder, Quan Vuong, Anna Walling, Haohuan Wang, Jason Wang, XuDong Wang, Chris Whalen, Samuel Whitmore, Blake Williams, Charles Xu, Sukwon Yoo, Lili Yu, Wuming Zhang, Zhuoyang Zhang, Ury Zhilinsky

机构:Physical Intelligence

网址:https://pi.website/pi07


图1:我们介绍π0.7,一个可引导的通用机器人基础模型,能够在许多任务、环境和机器人之间执行灵巧任务。π0.7使用多样化的prompt进行训练,prompt中不仅包含任务描述,还包含详细语言、生成的子目标图像和episode元数据。这为模型提供了更丰富的上下文,不仅说明要做什么,还说明如何去做,使得π0.7能够利用广泛的机器人和非机器人数据,并以新方式组合这些数据中的技能来解决新任务。

摘要

我们提出了一种新的机器人基础模型,称为π0.7,它能够在广泛的场景中实现出色的开箱即用性能。π0.7能够在未见环境中遵循多样化的语言指令,包括具有多个阶段的多阶段任务,提供零样本跨具身泛化——例如使机器人在从未见过折叠衣物任务的情况下就能折叠衣物,并且能够开箱即用地执行诸如操作意式浓缩咖啡机等挑战性任务,其性能水平可与更专业化的RL微调模型相媲美。π0.7的核心思想是在训练过程中使用多样化的上下文条件化。这种包含在prompt中的条件信息使得模型能够被精确引导,以不同策略执行多种任务。模型不仅以描述应该做什么的语言命令为条件,还接受额外的多模态信息,这些信息也描述了应该以何种方式或策略来执行任务,包括任务性能的元数据和子目标图像。这使得π0.7能够使用非常多样化的数据,包括演示数据(可能是次优的)、(自主的)数据(包括失败),以及来自非机器人来源的数据。我们的实验在多个机器人平台上评估了π0.7,涵盖了需要速度和灵巧性的任务、语言遵循以及组合任务泛化。

I. 引言

我是我所遇一切的一部分。
——阿尔弗雷德·丁尼生,《尤利西斯》

基础模型基于这样的原理工作:通用能力从大规模多样化数据集的训练中涌现出来。例如,大型语言模型不仅能够回忆事实和语义知识,还能够以新方式组合这些知识,解决需要意想不到联系的问题,应用用户定义的格式(例如JSON),并执行思维链推理。这种组合泛化可以说就是通用能力的基础,但在物理智能领域已被证明是难以实现的。虽然机器人基础模型如视觉-语言-动作模型(VLA)已经取得了显著进展,但它们泛化到新任务或以新方式重新组合技能的能力仍然有限。与语言模型不同,语言模型能够组合来自训练数据的不同能力来解决新问题,而先前的VLA不仅缺乏解决新任务的能力,而且通常在流畅执行所有训练指令时都会遇到困难,除非进行任务特定的微调。

在本文中,我们提出了一个新模型π0.7,它展现出了组合泛化的强大特征——使它能够遵循多样化的语言指令,获得与更专业化微调模型相当的灵巧任务性能,甚至能以新方式组合这些行为。这通过利用大规模多样化数据集来实现,包括来自多个机器人的数据,包含多样化策略、自主执行的次优数据(包括RL后训练智能体的数据和失败数据),来自人类执行任务视频的非机器人数据,以及来自互联网的通用多模态数据。然而,天真地使用这样的数据并不会成功:由于示例在策略和任务性能方面都存在差异,天真的训练过程会导致模型对数据集中不同模式进行平均,产生次优结果。在训练π0.7时,我们通过用详细的上下文注释来注释数据,解决了这个挑战,这些注释不仅包含关于做什么的信息,还包含如何做的信息,并通过多种多模态条件信号将这些知识提供给模型。通过这种方式,每个episode都能教会机器人细致的概念和技能,使其不仅能够有效地执行训练任务,还能以新方式组合来解决新任务。我们提出的prompt结构包括详细的语言标签、策略元数据,以及如子目标图像等多模态信息。这使得我们能够解决大型多样化数据集中的歧义问题,从次优行为中学习而不损害性能,并获得跨指令、跨具身和跨环境的广泛泛化。

在我们的评估中,我们表明π0.7展现出许多超越先前机器人基础模型的能力:

  • 开箱即用性能:π0.7能够可靠地执行高度灵巧、长周期任务,如使用意式浓缩咖啡机、折叠衣物、取出垃圾袋、折叠箱子和削皮,无需任何任务特定的训练后调整,且能在多种环境中工作。

  • 指令泛化:π0.7能够在未见环境中遵循多样化的语言指令,并对复杂、未见语言引用展示出鲁棒的泛化。例如,π0.7能够在完全未见的厨房和卧室环境中遵循多样化的开放式指令。

  • 跨具身泛化:π0.7能够实现零样本跨具身迁移,使得将折叠T恤等灵巧任务迁移到从未训练过任何衣物折叠任务的机器人成为可能,其性能匹配专家操作员远程操作机器人初次尝试的表现。

  • 组合任务泛化:π0.7能够被指令通过以前所未见的方式组合之前见过的技能来执行新任务。例如,我们可以prompt π0.7使用新的厨房电器,如将红薯放入空气炸锅,或prompt它以新方式执行任务。

通过消融实验和缩放研究,我们还通过实验证明,多样化数据集和详细上下文之间存在很强的协同作用:我们的方法能够从混合质量数据和非标准数据源中学习而不损害模型性能,并且当训练过程中提供详细上下文信息时,多样化数据能够提升模型性能。

II. 相关工作

通用机器人操作策略。有大量工作研究开发通用机器人策略。这些通用策略有时从零开始训练[1–6],但更常见的是使用预训练的视觉-语言模型[7–23]或预训练视频生成模型[24–28]初始化。各种工作开发了VLA的架构组件,如记忆[29–37]、长周期规划的层次结构[13, 14, 38–40],以及目标图像条件化[41]。我们在单个模型中整合了这三个组件,构建在π0.6-MEM架构[37, 42]之上。虽然通用策略最常使用机器人演示数据训练,但先前工作已经展示了如何从网页数据[7]、第一人称人类视频[25, 43–49]和自主机器人经验[50–52]中获益,并将其整合到预训练中。我们整合了所有这些数据源,并发现多样化数据与详细prompting的组合产生了具有强大组合泛化特征和开箱即用性能的模型。

跨任务和跨具身泛化。许多先前工作旨在学习机器人策略,使其不仅能泛化到不同环境、物体和背景,还能泛化到全新任务和具身。通常,这通过利用人类视频数据来实现,无论是用于通用表示学习[53–58],还是通过人类运动直接监督[45, 59–65],或者提取2D点轨迹[66–69]。其他工作旨在通过在训练或推理期间直接利用互联网预训练的基础模型来改进泛化[70–76]。随着大型跨具身机器人数据集[77]的可用性不断增加,也有工作明确改进机器人之间的跨具身迁移[78–84]。与利用现有数据集不同,一些工作提出了专门的手持设备,可用于收集数据,然后数据可以泛化到各种机器人具身[85, 86]。在本文中,我们发现正确的prompting允许我们的模型利用多样化的机器人、人类和互联网数据,在跨任务和跨具身方面实现强大的泛化。

使用子目标图像prompt机器人。相对于π0.6-MEM,我们模型的一个核心架构组件是允许模型使用目标图像(包括生成的子目标图像)进行prompt。将机器人操作策略条件化在目标图像和视频上已经在大量工作中进行了探索。一些工作使用用户提供的图像[87–90],而另一些工作则将策略条件化在从独立模型生成的目标图像上[91–98]或以思维链方式[41]。或者,图像和视频生成可以整合到策略训练目标中[24–26, 99–101],以改进策略表示并产生更可泛化的动作。我们将我们的贡献视为对这些工作的补充:我们的目标不是提出新的架构或模型设计,而是提供一种使VLA能够利用更多样化数据源的方法论,并通过实证分析表明它带来了组合泛化的强有力证据。据我们所知,我们的实证结果显著超越了先前工作报道的定量改进,展示了将衣物折叠等灵巧技能零样本迁移到不同机器人,并泛化到诸如操作空气炸锅等新物体交互。

III. 基于流的视觉-语言-动作模型

VLA从预训练的视觉-语言模型(VLM)骨干开始训练,并将其适配用于机器人控制。训练数据集D包含机器人轨迹,即观测o_t和动作a_t的序列。观测o_t = [I^1_t, ..., I^n_t, q_t]由n张相机图像I^i_t和机器人关节配置q_t组成,而动作a_t由关节或末端执行器命令组成。

VLA通常被训练来预测动作块,对应于未来动作a_t:t+H的短轨迹,基于最近的观测历史o_{t-T:t}(通常执行更短范围的动作Ĥ < H)。动作块可以由"动作专家"生成,这是一个较小的transformer,它关注VLM骨干并在运行时实现快速推理。动作专家通常使用流匹配[102](或扩散)目标,它能够捕获机器人动作的多模态特性。为了学习有效的表示,我们的模型还使用知识隔离(KI)训练方法[103]:VLM骨干使用FAST tokens[104]监督,当动作专家关注VLM骨干的所有激活时,来自动作专家的梯度不会回传到VLM骨干,使得VLM通过相对稳定的离散交叉熵损失训练。

除了观测和动作,VLA的每个训练样本都伴随着一个prompt或上下文,我们用C_t表示。传统上这对应于语言指令ℓ_t,因此C_t = (ℓ_t),由人类标注者提供(例如,"清理厨房")。

在设计π0.7时,我们探索向每个训练样本的上下文中添加额外信息如何能够支持从多样化和异质数据集(包括次优行为和失败)中学习。正如我们将展示的,使用这些数据进行训练会导致模型具有更强的鲁棒性和灵巧性,并使得模型能够更广泛地泛化。VLA π_θ的训练目标对应于近似对数似然,由下式给出:

$$ \max_\theta \mathbb{E}_D \left[ \log \pi_\theta(a_{t:t+H} | o_{t-T:t}, C_t) \right] . \tag{1} $$

注意,流匹配动作专家优化的是近似下界而不是闭形式对数似然[10]。数据集D通常由高质量人类演示轨迹组成;然而,如前所述,我们使用更广泛的数据集,其中包含失败episode和次优自主rollout,以及其他数据源如第一人称人类视频数据。我们将展示,使用足够详细和信息丰富的上下文C_t如何使得整合多样化数据成为可能,并且令人惊讶的是,这甚至能带来更好的策略性能和泛化。

IV. π0.7 概览

π0.7是我们最新的机器人基础模型,它构建在π0.6[42]的现有VLA架构和MEM记忆系统[37]之上,并通过多模态上下文条件化进行扩展。模型由从Gemma3 4B参数VLM[106]初始化的VLM骨干(包括400M参数的视觉编码器),和具有860M参数的流匹配动作专家组成。模型总共有约5B参数。视觉编码器也从Gemma3初始化,并遵循MEM视频历史编码器的设计[37],对历史观测应用时间和空间压缩,并输出固定数量的token,无论历史帧数是多少。模型架构概述见图2,更多架构细节见第六-B节。

我们之前的模型π0、π0.5和π0.6使用简短的任务文本描述作为上下文。在训练π0.7时,我们扩展了上下文以包含额外信息和模态:更具表达力的语言命令、episode元数据和子目标图像,使得在多样化且可能次优的数据上训练成为可能。


图2:架构概述。π0.7模型是一个5B参数的VLA,由4B VLM骨干、MEM风格视频历史编码器和860M参数动作专家组成。模型的上下文包含多种不同模态,包括语言命令、描述数据质量和策略的episode元数据,以及如子目标图像等多模态输入。在运行时,语言命令由基于相同架构的高级语义策略产生,子目标图像由基于BAGEL图像生成模型[105]的轻量级世界模型产生。

V. 多样化Prompt

在本节中,我们描述π0.7使用的上下文C_t中包含的每个prompt部分。模型被训练处理包含这些组件的prompt,尽管训练时每个组件都会随机丢弃,因此它也能处理任意子集,在测试时提供灵活性。

A. 子任务指令

跟随π0.5[14],我们除了整体文本任务描述ℓ_t(例如,"清洁厨房")之外,还将捕获下一个语义子任务的中间高级文本作为prompt的一部分。我们用ℓ̂_t表示这个中间文本(例如,"打开冰箱门")。在推理过程中,ℓ̂_t可以由学习到的高级策略产生,也可以由人类产生(并且可以随时间变化)。我们从多样化任务和场景收集数据,然后用详细的文本描述注释每个片段。

将模型条件化在语义子任务上还使我们能够通过语言逐步口头指导模型。由于模型被训练遵循多样化语言指令,它能够在新任务中遵循人类的实时指令,例如将红薯放入空气炸锅(图14)。在指导之后,我们可以使用口头指导数据微调π0.7作为高级策略,该策略将机器人观测、任务规范和过去子任务指令历史映射到新的子任务指令(图2左下)。这个高级策略然后引导机器人完全自主地执行任务。

B. 子目标图像

虽然子任务指令能有效地传达任务的高级意图,但它们可能缺少对执行很重要的细节——例如,"打开冰箱门"没有说明机械臂应该如何抓住把手。子目标图像通过描绘场景期望的近未来状态来解决这个问题,为世界在任务成功进展后应该是什么样子提供了更丰富的说明。

我们考虑多视角子目标g_t = [G^1_t, ..., G^n_t],其中G^i_t是相机i期望的近未来图像。多视角子目标同时指定环境和物体中心结果(在基础视图中通常最容易)和机械臂/夹爪结果(在腕部视图中通常最容易),改进了控制的空间 grounding。

在运行时,子目标图像由轻量级世界模型生成,该世界模型与主模型接受相同的子任务指令ℓ̂_t,但受益于网页规模预训练的视频和图像编辑任务,因此能够泛化到多样化任务和场景。基于机器人当前观测生成的子目标图像通常比语言指令更能清楚地消除策略目标的歧义,从而改进语言遵循和泛化。我们将这个模型表示为g_ψ,它使用以下目标训练:

$$ \max_\psi \mathbb{E}_{D_g} \left[ L_{\text{CFM}} \left( g^\star_t, g_\psi(o_t, \hat{\ell}_t, m) \right) \right] $$

其中L_CFM是标准流匹配损失[102],g^⋆t是未来子目标图像,m是第五-C节中的episode元数据,数据集D_g是第五-A节中被注释了特别高质量子任务标签ℓ̂_t的片段子集。片段末尾的图像帧作为真值子目标,即g^⋆_t = o{end}。

遵循SuSIE [93],我们的世界模型使用现成的图像生成和编辑模型进行初始化,该模型具有网页规模预训练。我们从BAGEL [105]初始化,这是一个14B混合transformer模型,能够进行图像理解、编辑和生成。通过用网页数据、非机器人数据源如第一人称人类视频和其他视频数据增强我们的世界模型训练,我们可以从这些其他数据源获取语义和物理概念,然后通过子目标图像将它们迁移到π0.7中。实现细节见附录C。

C. Episode元数据

扩展提供给模型上下文的一个关键目标是在更广泛、更多样化的轨迹数据集上训练。π0.7不仅仅使用高质量演示数据,还利用较低质量的演示(包括失败),甚至来自先前模型的自主数据。由于我们仍然希望π0.7在测试时尽可能好地执行任务,我们需要用关于任务执行方式的信息适当地标记这些多样化轨迹,以便模型能够正确地对它们进行上下文建模。为此,我们向上下文添加各种"episode元数据"信息,带有给定训练episode的属性。我们用元数据集合m表示,它可以包含各种标签,包括:

  • 整体速度:episode的长度(以时间步计)。我们将值离散化为500步区间,例如,1750到2250步之间的值被分箱为"2000步"。通常更快的速度也对应更高质量,例如episode包含更少错误。

  • 整体质量:任务执行质量,表示为1到5之间的分数,5是最高质量。

  • 错误:指示机器人在给定动作片段中是否犯错的标签(例如,未能抓住物体或执行了错误的子任务)。这些标签由人类粗略注释我们的数据提供。

因此,π0.7使用真值episode速度以及手动注释的episode质量和错误片段从多样化混合数据中训练。数据多样性(例如,不同速度的episodes)为模型提供了必要信号,使其能够学习将元数据与目标动作相关联。在运行时,然后可以通过元数据prompting指示模型以高速、高质量执行任务,并且不犯错误。

D. 控制模式

我们还考虑对低级动作执行使用不同的控制模式。具体来说,我们在训练期间同时包含关节级和末端执行器动作,并使用文本标识符c ∈ {joint, ee}在prompt中指定控制模式。然后在运行时,我们可以根据任务选择控制模式。

E. 完整prompt和训练细节

<多视图观测><多视图子目标>
任务:给蔬菜削皮。子任务:拿起削皮刀。
速度:8000。质量:5。错误:否。控制模式:关节。
<本体感知>

结合所有上下文信息,上面的例子说明了可以提供给模型的一个可能prompt。

在训练期间,我们随机丢弃prompt的每个部分,这为π0.7提供了在测试时使用任意prompt子集组合的灵活性(例如,有或没有子目标图像运行)。首先,我们发现当给出子目标图像时,训练速度显著加快——动作预测任务本质上变成了"逆动力学"问题,推断当前帧和未来帧之间的机器人动作。因此我们在训练中每个批次只向25%的样本添加视觉子目标图像。在包含子目标图像的样本中,我们也有30%的概率丢弃子任务指令ℓ̂_t,因为通常视觉子目标可以用更丰富的细节替代等效的文本子任务描述。对于episode元数据,我们有15%的概率完全丢弃它,并且另外每个组件(整体速度、整体质量和错误标签)单独以5%的概率丢弃。对于控制模式,我们不应用dropout。

VI. π0.7模型和训练方法

我们现在讨论如何在π0.7模型中整合不同上下文,通过多样化数据训练,以及模型架构、训练和推理的细节。

A. 训练数据集

π0.7的训练数据集由以下组成:广泛任务的演示数据,这些任务在许多不同机器人平台(静态和移动,单臂或双臂),多样化环境(室内实验室环境和家庭环境,以及野外家庭环境),大量策略评估的自主数据,策略rollout中的人类干预,开源机器人数据集,第一人称人类视频数据,以及来自网页的辅助非机器人数据源,包括物体定位和属性预测,视觉问答,和纯文本预测。我们还包括室内机器人数据和来自网页的视频-语言任务。

与传统VLA训练流程显著不同的是,我们在训练中大量使用次优机器人数据。这包括较低质量的演示(失败episode或包含大量错误的成功episode)和我们先前版本模型在模型评估实验期间收集的数据¹。例如,我们使用π0.6*模型在RL训练期间收集的数据作为额外示例,有效地让π0.7提炼它们的行为。将episode元数据整合到上下文中允许我们的模型有效利用所有这些评估数据,正如我们将在第九-A节中看到,这使得它能够获得与单个任务上RL高性能专门模型相似的性能。这对应于一种"提炼"过程,通用π0.7模型可以继承RL训练专家的能力。次优数据还多样化了给定任务中可能的状态和场景,并带来更强的鲁棒性,使得模型在高度灵巧任务中有时甚至能超过RL训练或单任务后训练策略。

¹我们排除了任何聚焦泛化评估任务(包括第九节中的评估任务)收集的自主数据用于训练。

B. 模型架构

与先前的π0.5和π0.6模型相比,π0.7模型的主要架构修改包括使用来自MEM [37]的历史视觉编码器,并将视觉子目标图像包含在上下文中。模型最多接受四张相机图像(前视图、两个腕部视图,可选后视图),每张最多六个历史帧,最多三个子目标图像(省略后视图)。历史帧通过视觉编码器处理,并压缩到与单帧相同数量的token;子目标图像通过相同编码器处理。相机观测和子目标图像都首先调整大小到448x448像素。对于采样历史帧,我们使用1秒的步长,并且整个历史帧以0.3的概率完全丢弃。后视图图像(如果可用)也以0.3的概率丢弃。

我们采用块因果掩码方案,使得观测token和子目标图像token在自身内部使用双向注意力,目标图像token可以额外关注观测。后续文本token使用因果注意力(见附录中的注意力掩码可视化)。我们还将本体感受状态q_t(包括历史状态)输入到模型骨干。与π0.6使用离散化文本token表示q_t不同,π0.7遵循MEM并使用线性投影嵌入状态,将状态维度映射到骨干维度。每个历史状态被视为一个单独token;如果历史帧被丢弃,对应的状态token也被掩码掉。

更轻量的"动作专家"是一个860M参数的transformer,被训练使用流匹配目标预测连续动作。我们使用自适应RMSNorm为流匹配注入时间步信息。动作专家处理的动作token数量固定为50,表示50步的动作块。50个token双向相互注意力,也能关注VLM骨干激活。

π0.7还在训练时使用实时动作分块(RTC)[107, 108]版本,用于在推理延迟存在时生成平滑动作轨迹。在训练期间,我们模拟0到12个时间步的延迟,对应50Hz机器人上最大240ms推理延迟。

C. 使用子目标图像训练

当训练π0.7处理子目标图像时,我们需要模型适应不同延迟和不同图像质量水平的目标,包括我们世界模型生成的图像。这需要仔细选择哪些子目标作为上下文提供给模型训练。我们在真实图像(来自训练轨迹的未来时间步)和生成图像的组合上训练。我们发现以下采样方案对于选择真实图像的时间步有效:以0.25概率,我们采样片段末尾图像(与世界模型预测目标一致),以0.75概率,我们在当前时间步之前0-4秒范围内均匀采样未来图像。除了这些真实图像,我们还从世界模型采样大量子目标图像,通过将这些生成的子目标图像添加到π0.7的上下文中代替真实未来图像,减轻真实图像和生成图像之间的训练-测试不匹配。

D. 运行时Prompting π0.7

在运行时,我们配置π0.7使用不同形式的上下文,根据期望行为,无需任何任务特定的训练后调整。对于任何任务,我们总是用控制模式和episode元数据prompt模型。对于选择episode元数据,我们遵循:

  • 整体速度:按任务设置为该任务episode长度的第15个百分位数。
  • 整体质量:始终设置为5,这是最高分。
  • 错误:始终设置为false,表示没有错误。

子任务指令ℓ̂_t要么由学习到的高级语言策略提供,要么由人类监督者提供指导(见第五-A节)。当使用子目标图像时,我们每当语义意图改变(即新的ℓ̂_t)刷新子目标图像,或者自上次生成子目标图像后经过Δ = 4秒,以先发生者为准。完整工作流程见算法1。我们应用异步推理:视觉子目标和子任务指令生成在独立线程中发生,VLA推理始终使用最新可用的信息。

对于所有实验,我们使用5个去噪步骤生成50步动作块,并从块中执行Ĥ ∈ {15, 25}步。由于每个prompt组件都训练了dropout,π0.7也可以对任何prompt部分使用无分类器引导(CFG)[109],例如引导生成的动作朝向更高速度。具体来说,每个动作去噪步骤遵循:

$$ \nabla_a \log \pi_\theta(a_{t:t+H} | o_t, C_t) + \beta \left( \nabla_a \log \pi_\theta(a_{t:t+H} | o_t, C_t) - \nabla_a \log \pi_\theta(a_{t:t+H} | o_t, C_t^{\text{uncond}}) \right), $$

其中C_t^{uncond}表示"无条件"模式中使用的上下文集合,β是CFG权重。虽然上下文的任何部分都可以丢弃,但我们对episode元数据应用CFG以在灵巧任务中引出强性能。我们使用中等大小的β值β ∈ {1.3, 1.7, 2.2}。

算法1 测试时Prompting π0.7

1: 输入:初始观测o_0,任务指令ℓ,episode元数据m,控制模式c
2: 初始化子任务ℓ̂(来自高级策略或指导)
3: g^⋆ ∼ p_ψ(g^⋆ | o_0, ℓ̂, m)
4: C = {ℓ, ℓ̂, g^⋆, m, c}
5: a_{t:t+H} ∼ π_θ(a | o_{t-T:t}, C) ▷ 可选:CFG
6: for t = 0, 1, 2, . . . do
7:    if ℓ̂改变或Δ秒计时器计时到 then
8:       g^⋆ ∼ p_ψ(g^⋆ | o_t, ℓ̂, m) ▷ 非阻塞(异步)
9:       C = {ℓ, ℓ̂, g^⋆, m, c}
10:   end if
11:   if 自上次推理以来已过Ĥ步 then
12:      a_{t:t+H} ∼ π_θ(a | o_{t-T:t}, C, a_{t:}) ▷ 异步 w/ RTC
13:   end if
14:   执行a_t
15: end for

VIII. 机器人系统细节

我们在各种机器人平台上部署π0.7(图4),包括双臂移动操纵器(配备两个6自由度机械臂)、静态双臂操纵器(配备轻量级6自由度机械臂"BiPi"),以及我们用于跨具身实验的双臂UR5e系统(配备Robotiq夹爪)。额外的泛化和语言遵循实验使用单臂6自由度系统,使用与上述相同的机械臂。


图3:Prompt概览。π0.7在prompt中使用多种模态的上下文,包括:子任务指令、子目标图像和episode元数据。我们训练模型时对每个组件使用dropout,然后灵活组合模态prompt模型。例如,当使用UR5e双臂操纵器折叠衬衫时,我们使用子目标图像和元数据prompting。


图4:我们实验中一些机器人的示例。我们在多种机器人上评估π0.7,包括双臂移动操纵器(左)、静态双臂机器人(中),以及我们用于跨具身实验的双臂UR5e设置(右)。


图5:选定评估任务示例。我们在许多任务上评估π0.7,这里可视化两个较长周期的任务。对于某些任务如"倒垃圾",我们提供粗略指令如"take out the trash",π0.7执行完整长周期任务。对于其他不出现在π0.7训练数据中的任务如"烤贝果",我们可以利用π0.7强大的语言遵循能力,通过一系列分解任务的详细指令逐步指导它执行任务。

额外的泛化和语言遵循实验使用单臂6自由度系统,使用与BiPi平台相同的机械臂。值得注意的是,虽然我们大部分数据是用类似于BiPi平台的机械臂收集的,但我们用于跨具身测试的UR5e机械臂明显更长,具有不同的形态,并且重得多。实际上,由于臂的形状、它们在桌子上的位置(在侧面而不是在一个边缘),以及夹爪和手指的形状,UR5e臂需要采用不同的操作策略,这使得向该平台的跨具身迁移成为一项重大挑战。

所有操纵器都使用平行爪夹爪。UR5e机器人以20Hz运行,而所有其他机器人以50Hz运行。每个机器人都有一个前置摄像头和每个手臂上的腕部摄像头,移动机器人还有一个后置摄像头。π0.7模型的动作输出在每个机器人上通过简单的PD控制器执行。对于命令末端执行器运动,我们应用数值逆运动学将目标末端执行器位姿转换为目标关节位置。

IX. 实验评估

在我们的实验中,我们评估π0.7如何利用多样化数据源实现强大的开箱即用性能、广泛的泛化和更有效的迁移,利用各种上下文模态。具体来说,我们研究π0.7如何开箱即用地执行复杂灵巧任务,特别是与更专业化的RL微调模型比较(第九-A节),评估它灵活遵循指令执行各种不同任务的能力(第九-B节),研究它跨具身的迁移能力(第九-C节),测试它以前所未见的方式组合技能执行新任务的能力(第九-D节)。最后,我们进行对照实验研究π0.7的性能如何随着我们机器人数据集中任务和上下文多样性的增加而变化(第九-E节)。

A. 挑战性任务的开箱即用性能

π0.7在无需任务特定训练后调整的情况下就能在灵巧任务上实现高性能。在我们第一组实验中,我们研究π0.7能多好地掌握训练数据中已见过的灵巧任务,但目标是尽可能鲁棒且高效地执行这些任务。这对先前机器人基础模型来说出人意料地困难:通常性能最好的策略都是针对特定下游任务微调的,即使它们使用通用预训练[42, 50]。我们旨在回答:通用π0.7模型能否在各种灵巧操作任务上匹配特定任务微调模型的性能?

我们使用图6所示的任务。这些任务包括我们先前用来评估RL训练π0.6模型的意式浓缩咖啡制作、装箱和折叠衣物任务[50],我们可以直接比较单个通用π0.7模型与单个RL微调专家π0.6模型的速度和鲁棒性。我们还研究许多其他灵巧任务,包括我们先前"机器人奥林匹克"实验中的一些任务(制作花生酱三明治、把衬衫反过来、开车过门),以及一些额外的灵巧任务,如完整切西葫芦、给几种水果和蔬菜削皮(西葫芦、黄瓜和胡萝卜),以及在垃圾桶更换垃圾袋的长周期任务。我们发现,π0.7在所有任务上直接开箱即用就能获得与π0.6发布中使用的RL专家相当的性能(图6,第一行),甚至在困难的衣物折叠和装箱任务中吞吐量超过专家。此外,我们将π0.7与基于π0.6的SFT专家在许多其他灵巧任务上比较,发现π0.7再次能够紧密匹配所有专家策略的性能(图6,第二行)。

为了理解π0.7的训练方法如何影响性能,我们另外在来自π0.6*发布的任务上将π0.7与两个消融模型比较:π0.7 (no eval data),它在训练中排除了所有自主评估episode(因此不能从强的例如RL训练策略提炼智能体rollout受益),以及π0.7 (no metadata),它从上下文中省略episode元数据,如图7所示,用于π0.6发布中使用的任务。结果表明π0.7显著优于π0.7 (no eval data)和π0.7 (no metadata)在所有任务上的表现。由于策略评估数据的质量差异很大,使用这些数据训练,结合丰富元数据来区分高低质量行为,对π0.7在所有这些挑战性任务上的强大性能至关重要。

π0.7在无需微调的情况下在需要记忆的任务上实现高性能。在这些实验中,我们研究π0.7能多好地执行需要明确跟踪先前上下文的任务[37]。我们将同一个π0.7开箱即用与MEM论文[37]中使用的具有记忆、任务特定微调版本的π0.6比较,发现π0.7在所有这些任务上都能达到与微调专家相似或更好的性能(图8)。


图6:开箱即用灵巧性:π0.7能够直接开箱即用地执行广泛的高度灵巧任务。我们考虑来自π0.6 [50]的任务(上图)和许多其他灵巧任务,包括来自"机器人奥林匹克"实验的任务(下图)。对于来自π0.6的任务,我们报告成功率和归一化吞吐量(相对于专家模型;原始吞吐量表示每小时成功次数),而对于其他任务我们报告任务进度。我们发现同一个π0.7模型能够匹配π0.6*或π0.6中每个任务经过任务特定训练后专家策略的性能,甚至在多样化衣物折叠和装箱任务中比RL专家达到更高吞吐量。


图7:prompt组成和评估数据对开箱即用性能的影响:我们将π0.7与两个消融模型比较:一个不在上下文中包含episode元数据,即π0.7 (no metadata),另一个在训练期间不包含来自自主评估episode的数据,即π0.7 (no eval data)。我们发现π0.7在所有任务上都优于π0.7 (no metadata)和π0.7 (no eval data),差距在吞吐量上最为显著。这里吞吐量(成功次数/小时)相对于π0.7归一化。

B. 语言遵循

在下一组实验中,我们研究π0.7能多好地遵循语言指令,包括它执行各种不同上下文并遵循与训练数据系统性不同的指称指令的能力。我们的实验特别关注在杂乱环境中执行任务,那里机器人可能执行许多可能的任务,需要π0.7仔细关注提供的指令才能成功。我们发现π0.7展现出的语言遵循能力显著改进了我们先前的模型π0.5 [14]和π0.6 [42]。

π0.7可以被灵活prompt执行各种不同任务。语言遵循对机器人基础模型来说一直是一个臭名昭著的挑战,特别是对于不直接对应训练中所见的开放词汇指令。在这些实验中,我们旨在研究π0.7能力的广度,回答:π0.7能否比先前模型更好地处理更广泛的语言指令?

我们在4个未见厨房和2个未见卧室(训练数据中没有这些环境)评估π0.7的多样化指令(图9)。每个实验测试机器人能否遵循3到6步指令序列达到特定目标。任务需要在厨房和卧室环境中执行各种不同实际任务,包括重新整理和整理物品、与家具交互以及清理洒出物。这种新测试环境和多样化指令的组合对机器人基础模型来说是一个重大挑战,它们即使在已见过环境中遵循简单指令都会遇到困难。我们发现π0.7能够显著优于π0.5和π0.6,具有很高的整体语言遵循成功率。

π0.7能处理分布外指称指令。由于我们训练数据的广度和多样性,通常很难量化测试指令的新颖程度。在下一组实验中,我们有意设计了一组不寻常的指令,以非常规方式指代物体,或需要理解空间关系。在图10中,我们比较π0.7和先前模型在物体重排指令上的表现,分为标准指令和复杂指令。标准指令的表达方式与训练数据中的语言指令相似。复杂指令使用不寻常的语言或复杂的空间引用,例如"拿起我会用来喝汤的物体"或"拿起最大盘子上的水果"。在这些实验中,我们还评估了使用和不使用子目标图像的π0.7,子目标图像由前面讨论的轻量级世界模型生成。我们可以看到π0.7在复杂指令上改进了先前模型,使用子目标图像进一步提升了其性能,从世界模型引入语义理解。

π0.7能够遵循违背数据集偏差的指令。数据集偏差对语言遵循来说是一个主要挑战:如果机器人在给定场景中总是做同样的事情,在这种数据上训练的模型通常会忽略这些场景中的语言,盲目复制数据中见到的行为。在下一个实验中,我们构造了存在这个问题的场景,测试我们能否prompt π0.7违背数据集中的自然偏差。我们构造了两个任务:"反向收餐"(Reverse Bussing)和"反向冰箱到微波炉"(Reverse Fridge to Microwave)。在我们的数据集中,"收餐"任务涉及把垃圾放进垃圾桶,把盘子放进收餐盘。对于"反向收餐"任务,机器人被要求做相反的事情:把垃圾放进收餐盘,把盘子放进垃圾桶。"冰箱到微波炉"任务需要把食物从冰箱取出放进微波炉,我们没有收集反向方向的数据。在测试时,这个任务的"反向"版本("反向冰箱到微波炉")中,我们prompt机器人把食物从微波炉放进冰箱,违背了数据集中的偏差。

图11的结果表明π0.7在这些任务上显著优于先前模型。这表明π0.7具有显著更好的语言遵循能力,并且足够关注指令来克服这些任务的数据偏差。在"反向冰箱到微波炉"任务上,条件化在生成的子目标图像上(π0.7 (GC))对成功至关重要,因为世界模型能够利用网页规模图像生成预训练有效地基于文本指令生成子目标。

C. 跨具身迁移

虽然许多模型已经使用来自多个不同机器人具身的数据[3, 5, 8, 80],但将复杂任务从零样本从源具身迁移到从未见过该任务的目标机器人仍然是一个重大挑战。在这些实验中,我们旨在研究跨具身迁移是否是π0.7的涌现特性。即,π0.7能否直接将能力迁移到从未收集过任务特定数据的机器人具身?

我们发现,对于若干任务,π0.7能够完全开箱即在目标具身上成功完成任务,这些任务在目标机器人上没有任何训练数据。对于适度的具身差异,π0.5和π0.6模型也展现出一定程度的涌现跨具身迁移。然而,随着差距变大,当机器人形态学差异增加时,有效地转移复杂技能需要更显著的策略变化。在这些情况下,π0.7显著优于先前模型,甚至能匹配人类远程操作者在衬衫折叠任务上的"零样本"性能,正如我们下面讨论。

物体重排任务的零样本跨具身迁移。我们首先研究一组更简单的物体重排任务,我们在不同于收集该任务数据的机器人上测试π0.7。结果呈现在图12中。对于第一个任务"摆放餐桌",数据是用多种不同机器人收集的,包括移动、静态和单臂系统。这对跨具身迁移来说是最有利的设置,因为模型可以从多个不同机器人推断任务的共同结构。当在静态双臂机器人系统上评估时,我们发现所有方法都展现出强烈的跨具身迁移迹象。然而,当我们显著增大具身差距,在更小的静态双臂平台上测试策略,而所有数据都在更大的双臂UR5e平台上收集("背包中放袋子"和"整理保鲜盒"任务),我们发现π0.5性能显著下降,而π0.6和π0.7仍然能够实现强大性能。然后我们进一步增大具身差距,研究在更小静态双臂平台收集数据的任务到单臂UR5e平台评估("衬衫装袋"任务)的迁移。这需要完全不同的策略,因为目标机器人只有一个臂,更大也更重。在这里,π0.7显著优于先前模型。

值得注意的是,成功迁移通常要求策略发现适合目标形态的新操作策略,而不是简单复制源行为。例如,更短的静态双臂机器人必须用一只手打开袋子保持,另一只手执行插入,而更高的UR5e臂可以用单臂拾取放置完成相同任务(图13 (a))。尽管存在显著的形态差距,模型仍为每个具身应用了适当的策略,证明跨具身迁移超越了模仿原始机器人运动。

灵巧任务的零样本跨身本迁移。像折叠衣物这样的灵巧任务带来更大的跨具身迁移挑战。大多数我们的折叠数据是用轻量级静态双臂机器人收集的(见图4)。我们没有用双臂UR5e系统收集任何衣物折叠数据。该系统的形态、可达工作空间和动力学(例如更高的内部惯性)与我们收集折叠数据的机器人显著不同。我们发现UR5e通常更难远程操作,也不适合非常精确抓取,这表明用这个机器人折叠衣物需要改变操作策略。

π0.7能够成功地在双臂UR5e系统上折叠毛巾和衬衫(图12,右图)。在源机器人(图4中的静态双臂机器人)上,人类操作员通常用倾斜的末端执行器接近布料,在抬起前将织物固定在桌子上。在UR5e上,π0.7反而使用垂直抓取,这更适合臂的运动学——这是一种不同于源机器人训练数据但更适合目标具身的策略(图13 (b))。我们还发现使用我们世界模型生成子目标图像显著改进性能(图中标记为π0.7 (GC)),因为世界模型能更有效地在源机器人和目标机器人之间构建视觉类比。生成的子目标预测什么样的抓取和衣物配置对目标机器人是合理的,模型将这个额外上下文作为提示选择更好的动作。

为了将这些结果语境化,我们对10名经验丰富的远程操作者进行了人体受试者研究(平均所有机器人远程操作经验375小时,都位于经验前2%)。与策略一样,这些操作者在源具身上有丰富经验,但从未尝试过在双臂UR5e系统上折叠衬衫,这使得这对人类和策略都是零样本跨具身迁移设置。人类操作者达到90.9%任务进度和80.6%成功率,而π0.7达到85.6%任务进度和80%成功率,证明性能可与这些专家操作者媲美。这种强烈的跨具身迁移性能比较突出了科学上令人兴奋的结果,它也有实际意义:灵巧技能可以从易于远程操作的轻量级低成本平台转移到高负载工业机械臂,而在这些工业机械臂上收集人类演示数据要昂贵困难得多。人体研究设置和结果的更多细节在附录F中提供。


图8:需要记忆的任务:π0.7也能执行需要明确跟踪先前上下文的任务,达到与MEM论文[37]中一些记忆微调专家策略相似或更好的性能。


图9:新环境中的广泛语言遵循:我们在14个语言遵循场景中评估π0.7,每个场景都需要遵循3-6步开放式指令序列,跨越4个未见厨房和2个未见卧室环境。我们报告语言遵循成功率,即所有评估中正确遵循的指令占总指令的百分比。我们发现π0.7在所有方面都显著优于π0.5和π0.6,获得很高的绝对成功率。


图10:遵循复杂指称指令:π0.7和先前模型都在更简单的重排指令上成功(指令包括"拿起勺子","把勺子放在叉子左边"和"把勺子放在叉子右边"),但π0.7在复杂和不寻常指令上性能显著更好(指令包括"拿起桌子上最大的碗","拿起我会用来喝汤的物体"和"拿起最大盘子上的水果")。包含轻量级世界模型生成的子目标图像(π0.7 (GC))进一步提升语言遵循性能,使π0.7更有能力遵循复杂指令。


图11:通过遵循指令打破数据集偏差:π0.7改进的语言遵循性能使其能够打破强数据集偏差。先前模型在这些数据偏差挑战任务上遇到困难,这些任务需要遵循与数据中模式矛盾的指令(例如,把盘子放进垃圾桶,把垃圾放进餐盘回收箱)。然而,π0.7能够足够好地遵循指令,打破这些强偏差仍然完成任务。值得注意的是,对于"反向冰箱到微波炉"任务,在上下文中包含来自世界模型的子目标图像(π0.7 (GC))对成功至关重要。


图12:跨具身迁移:左图:π0.7和先前模型都能直接开箱即在更简单的重排或重定位风格任务上实现强大的跨具身迁移。例如,对于"摆放餐桌"任务,数据用多种不同机器人收集,任务在静态双臂机器人上测试。所有模型都表现良好。对于需要从双臂UR5e机器人转移到更小静态双臂机器人的任务("背包中放袋子"和"整理保鲜盒"),具身差距更大,因为只有一个源机器人比目标机器人更大更重。在这里,π0.5表现非常差,但π0.6仍然表现不错。从小型静态双臂机器人向UR5e转移"衬衫装袋"任务引入了最大的具身差距,这里π0.7模型显著优于先前模型。右图:对于需要折叠毛巾和T恤的更灵巧任务,具身差距带来更大挑战。这些任务的数据用小型静态双臂机器人收集,任务在更大的双臂UR5e平台上评估。π0.7能够成功迁移这个任务,当使用我们轻量级世界模型生成的视觉子目标图像时改进更大。实际上,任务进度匹配我们最经验丰富的人类远程操作者的"零样本"性能,这些操作者操作过各种机器人,这是他们第一次在UR5e上尝试这个任务。


图13:跨具身迁移产生适合目标具身的涌现策略。(a) 在源机器人上,人类远程操作者用一只手保持袋子打开,另一只手执行插入。在UR5e目标机器人上,π0.7反而发现了单臂拾取放置策略,适合机器人更大的可达范围。(b) 在源机器人上,人类远程操作者用倾斜末端执行器接近衬衫,而π0.7在UR5e上产生垂直抓取,这更适合更大机器人的手臂放置。在两种情况下,策略都超越了复制源行为,发现了更适合目标具身的任务操作策略。


图14:语言指导示例:我们可以通过提供分步口头指令来"教"π0.7一个新任务。由于它的语言遵循能力,π0.7能够在用户指令下成功执行新任务,然后这些指令可以用来训练高级prompt π0.7的高级策略,使其能完全自主执行任务。


图15:指导执行新长周期任务:由于π0.7能有效遵循语言指令,即使对不熟悉的技能,它也能被"指导"执行许多未见的更长周期任务,无论是条件化在语言还是生成子目标图像(π0.7 (GC))。先前模型通常缺乏遵循指导命令所需的语言遵循能力,因此实现非常差的性能。


图16:通过指导获得新自主能力:我们可以为许多不同未见任务收集指导episode,用来训练高级策略,根据指导episode自动prompt π0.7。这允许我们为这些任务创建完全自主策略(π0.7 (autonomous)),其性能紧密匹配人类现场指导的策略性能(π0.7 (coaching)),而无需通过远程操作或任何其他低级动作收集额外数据。


图17:执行新短周期任务:π0.7能够直接开箱即用地执行许多新短周期任务,包括把米饭舀进电饭煲、旋转各种物体如齿轮组和桌面风扇,以及用布擦拭物体如尺子和耳机,尽管这些任务都没有收集任何数据。π0.7在直接条件化语言指令(π0.7)或生成图像目标(π0.7 (GC))时表现出大致相同的强度。

D. 组合任务泛化

在下一组实验中,我们研究π0.7能多好地通过在训练所见技能上组合泛化来执行新任务。这一直被认为是机器人基础模型的"重大挑战":虽然先前模型已经展示了语义概念上的泛化(例如,用未见文本标签伸向物体),但执行新任务仍然难以实现。

我们发现,对于一些短周期任务,π0.7能够完全开箱即用地良好工作,尽管没有为这些任务明确收集数据。这些任务需要以新方式操作不熟悉物体,例如用布擦拭一副耳机,或旋转桌面风扇(图17)。

对于更长周期、更复杂的任务,我们发现我们实际上可以利用π0.7的语言遵循能力用语言"指导"它完成任务。这提供了一种令人兴奋的新方式教π0.7新任务,而无需收集额外训练数据。

π0.7能开箱即用地执行新短周期任务。我们发现π0.7能够执行短周期任务如按压法压壶的活塞、把米饭舀进电饭煲、擦拭常见办公室物体,以及直接开箱旋转各种铰接物品,尽管没有为这些任务专门收集机器人数据(图17)。这相当令人兴奋——因为π0.7能灵活组合广泛技能,我们通常只需要prompt它就能让它执行期望的新简单任务。

π0.7能被指导纯语言执行新长周期任务。虽然π0.7可以直接prompt执行新短周期任务,但简单要求机器人执行未见长周期任务如烹饪红薯并不管用:尽管π0.7展现出高水平的开箱即用泛化,这些任务确实太复杂,需要与多个阶段进行多达5分钟的交互。然而,π0.7的语言遵循能力为我们提供了一条令人兴奋的新途径教模型这类任务:我们不需要为我们想要机器人学习的每个复杂技能提供演示数据,反而可以像教人类一样用语言"指导"机器人执行新任务(图14)。我们设置了几个真实的多阶段厨房任务:(1) "给空气炸锅装料":用空气炸锅烹饪红薯;(2) "给空气炸锅出料":把东西从空气炸锅中倒出,和(3) "烤贝果":用烤面包机烤贝果。在每种情况下,我们的机器人数据都不包含这个任务的任何训练episode,尽管在人类数据和外部数据集中不同上下文下见过类似电器。然而,人可以通过逐步指令指导机器人完成任务,例如"拿起红薯"和"打开空气炸锅"。

我们在图15中呈现了指导π0.7并比较的结果。关键是,任何模型都没有这些特定任务的动作级数据,在"指导"episode中,环境和任务完全未见。我们发现π0.7比先前方法能有效得多地指导执行所有这些任务,当条件化在生成子目标图像时能更有效地执行。

指导数据可以赋予π0.7新能力。由于π0.7能被指导执行新任务,我们实际上可以使用指导数据中的逐步指令训练高级语言策略,它能在执行任务时用适当的语言指令prompt π0.7。这使π0.7获得执行完全未见长周期任务的能力,而无需收集额外远程操作数据。我们在图16中展示了五个不同任务的实验结果。对于所有这些任务,我们发现我们能成功训练自主策略(π0.7 (autonomous)),其性能大致匹配prompt模型执行任务收集的指导episode(π0.7 (coaching))的性能。

E. π0.7能否从多样化和混合质量数据中有效学习?

在我们最后一组实验中,我们进行一组对照消融研究,理解π0.7能否有效利用大型多样化数据集,以及其性能是否随数据集多样性提高而提升。这些问题很难明确回答,因为这种模型的性能取决于大量因素,大型数据集很难干净切片进行多样性消融。为了理解这些问题,我们首先研究π0.7在逐渐增大但混合质量的数据集上训练时,是否在已见过任务上持续改进。然后,我们研究π0.7能否利用高任务多样性数据集推动泛化性能改进。

π0.7能有效从混合质量数据学习:有效地从多样化机器人数据学习迄今为止一直是训练机器人策略的重大挑战。设计者通常会仔细过滤或整理数据,提取具有一致策略的高质量数据集[110, 111]。但数据过滤非常繁琐,特定任务,最终会丢弃掉很多有价值的信息。在这些实验中,我们旨在回答:π0.7能否从具有多样化操作策略的数据中学到更多?

为了研究这个问题,我们考虑图6中研究的"洗衣(T恤和短裤)"任务。我们根据折叠质量和速度注释了人类操作员收集的数据,将数据集分成4个桶,包括(1) 质量和速度前30%,(2) 前50%,(3) 前80%,和(4) 所有数据。然后我们从头开始用每个桶的数据训练新的π0.7模型,使用或不使用episode元数据(总共8个模型)。我们发现,当π0.7(没有元数据)在更大、混合质量数据集上训练时,性能实际上会变差,而π0.7(带有元数据)能够随着我们在更多数据上训练持续改进,尽管数据集增大对应平均数据质量下降(图18,左)。这表明我们的多样化prompting方法有效地使模型设计更具可扩展性,从更大数据集中获益更多,即使这些更大数据集实际上由低质量数据组成,而这些低质量数据会损害普通方式训练的模型。Episode元数据在π0.7训练期间能有效消除大规模数据集中不同数据质量和策略的歧义,并在测试时能够prompt期望的行为模式。

π0.7能否将增加的数据集多样性转化为更好的泛化性能

为了研究这个问题,我们在图17中的一些短周期未见任务上比较了π0.7的以下消融模型:

  • π0.7 (w/o most diverse 20%):π0.7移除了20%最高任务多样性的数据。
  • π0.7 (w/o random 20%):π0.7随机移除20%的数据,与π0.7 (w/o most diverse 20%)进行数据控制比较。

π0.7 (w/o most diverse 20%)和π0.7 (w/o random 20%)之间的比较让我们能以可控方式理解高任务多样性数据的影响,因为两个模型都在相同数量数据上训练。我们发现,在所有任务上,π0.7和π0.7 (w/o random 20%)都显著优于π0.7 (w/o most diverse 20%),证明π0.7能够有效吸收高任务多样性数据,并将其转化为短周期未见任务的性能改进(图18,右图)。


图18:泛化性能随多样化上下文和数据的缩放:左图:我们发现π0.7(带元数据)在更大数据集上训练时性能能够持续改进,即使数据平均质量实际上下降。相比之下,不使用丰富条件信息训练的π0.7(不带元数据)在引入更多低质量数据时性能实际上会下降。右图:当π0.7训练时移除我们机器人数据中最高任务多样性的数据,性能显著下降。这表明π0.7能够利用我们机器人数据中的任务多样性推动组合任务泛化的实质性改进。

X. 讨论

我们提出了π0.7,一个通用机器人基础模型,展现出开箱即用的组合泛化、有效的语言遵循,以及与微调到单个灵巧任务的更专业化模型相媲美的任务性能。π0.7核心是多样化prompt策略,其灵感来自prompt扩展,在训练时(可选在测试时)向模型提供关于episode的额外信息。这种额外信息包括更详细语言、episode元数据和子目标图像。我们的实验表明,通过使用多样化prompt和更大更多样化数据集,π0.7可以表示许多不同质量的策略,并将专家性能提炼回一个预训练模型。π0.7获得了许多涌现能力,例如跨机器人技能迁移、遵循复杂语言命令和组合泛化,以新方式组合技能解决新任务。

虽然π0.7泛化范围很广,但零样本泛化成功率(毫不奇怪)低于分布内任务:虽然已见过任务通常成功率超过90%,未见任务或未见任务-机器人组合的成功率在60-80%范围内。未来工作一个激动人心的方向是利用π0.7的高可引导性在测试任务上高效学习数据,例如通过更详细的语言指导或甚至自主强化学习。

我们实验一个可能令人惊讶的局限是,在如此大型多样化数据集上训练时,实际上很难明确确定哪些任务是真正"已见"或"未见":虽然我们的一些泛化实验(例如第九-D节中)使用我们故意不收集数据的任务,但我们的数据集包含如此多不同场景和行为,相关技能很可能已经出现在数据集中其他地方,或以不同标签,或偶然作为执行其他任务的一部分。在很多方面这反映了理解大型语言模型泛化的挑战:确定什么真正新颖变得困难,模型很可能主要通过"重新混合"来自其他情境的技能和行为进行泛化。然而,我们可以认为这实际上就是组合泛化的本质。实际上,无论行为是真正全新还是仅仅是已见过部分的新颖组合,结果都是相似:不需要为我们想要机器人解决的每个新任务故意收集目标数据,提供组合泛化的模型允许用户只需要prompt它执行期望任务。能够规模化实现这种组合泛化的模型将改变机器人学习的方法,使得prompt、指导机器人成为可能,而不需要为每个新任务收集额外动作数据。

致谢

我们感谢机器人操作员进行数据收集、评估、后勤工作和视频录制,感谢技术人员进行机器人维护和修理。完整贡献声明见附录A。

参考文献

(参考文献略,保留原文格式)


附录

A. 贡献

数据收集与操作:Ashwin Balakrishna, George Bokinsky, Thomas Charbonnier, Grace Connors, Michael Equi, Chelsea Finn, Lachlan Groom, Hunter Hancock, Karol Hausman, Connor Jacobsen, Rowan Jen, Marinda Lamb, Vishnu Mano, Nandan Marwaha, Aikys Mongush, Tyler Patterson, Charvi Sharma, Lucy Xiaoyang Shi, Laura Smith, Will Stoeckle, Anna Walling, Jason Wang, Samuel Whitmore, Blake Williams.

注释与补充数据:Ashwin Balakrishna, Karan Dhabalia, Danny Driess, Chelsea Finn, Haroun Habeeb, Rowan Jen, Chandra Kuchi, Karl Pertsch, Lucy Xiaoyang Shi, Will Stoeckle, Quan Vuong.

策略训练与研究:Bo Ai, Ashwin Balakrishna, Kevin Black, Danny Driess, Michael Equi, Yunhao Fang, Chelsea Finn, Catherine Glossop, Haroun Habeeb, Karol Hausman, Gashon Hussein, Victor Hwang, Brian Ichter, Liyiming Ke, Sergey Levine, Xinyu Li, Yao Lu, Suraj Nair, Karl Pertsch, Allen Z. Ren, Baifeng Shi, Lucy Xiaoyang Shi, Laura Smith, Jost Tobias Springenberg, Kyle Stachowicz, Jiaming Tang, Marcel Torne, Kyle Vedder, Quan Vuong, XuDong Wang, Charles Xu, Lili Yu, Wuming Zhang, Zhuoyang Zhang.

策略基础设施:Kevin Black, Karan Dhabalia, Danny Driess, Mairbek Khadikov, Chandra Kuchi, Adrian Li-Bell, Vladislav Lialin, Wallace Lim, Yao Lu, Allen Z. Ren, Lucy Xiaoyang Shi, Kyle Stachowicz, Jiaming Tang, Quan Vuong, Haohuan Wang, Ury Zhilinsky.

机器人硬件:Ali Amin, Raichelle Aniceto, Greg Balke, Vedant Choudhary, Foster Collins, Grace Connors, Maitrayee Dhaka, Adnan Esmail, Thomas Godden, Ivan Goryachev, Tim Jones, Gregg Kammerer, Ben Katz, Devin LeBlanc, Brendon LeCount, Zhonglin Liang, Enyu Luo, Liam Murphy, Gavin Schelske, Shalom Tekeste, Chris Whalen, Sukwon Yoo.

机器人基础设施:Greg Balke, Kevin Black, Shihao Cao, Ken Conley, James Darpinian, Jared DiCarlo, Hunter Hancock, Karol Hausman, Szymon Jakubczak, Jimmy Tanner.

写作与插图:Bo Ai, Ashwin Balakrishna, Kevin Black, Chelsea Finn, Sergey Levine, Allen Z. Ren, Lucy Xiaoyang Shi, Laura Smith, Kyle Stachowicz.

B. 注意力模式

我们描述了训练π0.7和轻量级世界模型(用于子目标图像生成)时使用的注意力模式,以及使用它们进行推理的情况,见图19。

图19:π0.7模型及其世界模型(用于生成子目标图像)在训练和推理期间使用几种不同的非平凡注意力模式。左上角:在没有图像目标的情况下,我们使用与π0.5相同的注意力模式,所有记忆感知图像视图的嵌入之间具有全局双向注意力。注意FAST tokens(仅在训练时可用)和流动作不会互相关注。当存在图像目标时,我们将它们作为额外的块因果双向块包含在text prompt之后。当我们在推理时进行无分类器引导,我们将正负样本打包到同一个序列中,通过构建带有两个分支(正负)的"注意力树"实现高效推理,两个分支互不关注。遵循BAGEL,在训练时世界模型接收三张图像副本,每张在多视角组内都是块双向的:当前观测,用ViT编码;当前观测用VAE编码;噪声图像目标用VAE编码。世界模型使用类似的推理时CFG技巧,尽管由于它有三个CFG组而不是两个,掩码更复杂。

C. 世界模型训练

我们的世界模型从BAGEL [105]初始化,并且很大程度上使用相同的训练方法。我们使用机器人数据和第一人称人类视频数据的子集,带有高质量分段语言标签,因为我们发现标签质量(特别是时间分段质量)对子目标质量有很大影响。我们还额外混入了几个开源图像编辑数据集和开源视频数据集,以更好地保留模型的语义知识。每个训练示例由一个子任务指令ℓ̂、3个相机输入o_t,和3个目标图像o_{tend}组成,其中t_end是跨越t的segment的最后一个时间步。遵循BAGEL,相机输入使用ViT(用于语义理解)和VAE(用于细粒度图像细节)处理。ViT tokens进一步由7B LLM骨干处理,VAE tokens由7B生成骨干处理。ViT输入调整大小到448x336分辨率,VAE输入(包括目标图像)调整大小到512x384分辨率。差异源于ViT和VAE的patch大小不同(分别为14和16)。在测试时,我们设置Δ = 4秒作为重新生成子目标的时间间隔,匹配SuSIE [93]。

D. 推理速度与优化

π0.7模型和高级策略都基于Gemma3 4B,使用单张NVIDIA H100 GPU进行推理。RTC [107]之后实现的各种优化将π0.7最小变体的推理时间降至38ms,使用3个相机输入、5个去噪步骤,训练时RTC [108](与测试时RTC不同,不会产生额外推理时开销)。启用MEM视觉编码器[37]并添加子目标图像到上下文都会产生额外开销,最坏情况下推理时间增加到127ms。

以合理的延迟生成子目标图像具有挑战性,因为14B模型的迭代去噪计算量很大,总序列长度接近10,000 tokens。除了上述优化,我们还在4xH100 GPU上使用4路张量并行,将所有大矩阵乘数量化为8位精度,并使用修改版SageAttention [112]进行骨干注意力操作。这允许我们生成子目标图像,使用25个去噪步骤(每个包括文本和图像CFG),耗时1.25秒。在推理时,我们使用朴素异步策略执行,意味着π0.7继续执行,同时世界模型生成下一个子目标。

E. 跨具身迁移中动作空间的比较

图20比较了跨具身任务中关节空间和末端执行器(EE)控制。在所有任务中,EE控制没有显示出明显优势。因此,为了清晰起见,我们在主要的跨具身实验(第九-C节)中专注于关节空间控制。

图20:跨具身任务先前模型关节控制与末端执行器控制比较。我们在一系列任务上比较基线策略的关节空间和末端执行器(EE)控制,观察到两种控制模式之间性能没有实质性差异。

F. 跨具身衬衫折叠的人体受试者研究

人体受试者研究有两个目的。首先,它提供了最强的基线,通过测量专家操作者远程操作双臂UR5e机器人执行相同任务的效果来评估π0.7。其次,结果潜在地为跨具身迁移提供了动机:UR5e是一款工业机械手,具有高关节惯性,很难精确远程操作完成像衬衫折叠这样的灵巧任务,因此在这个平台上收集演示数据非常困难。能够迁移到新具身的模型打开了无需人类远程操作就能收集自主数据的机会。

参与者选择:我们招募了十位在整个操作者群体中经验排名前2%的操作者。他们都在源静态双臂机器人远程操作方面有丰富经验,所有机器人平台平均经验约375小时(图21)。至关重要的是,他们都没有在UR5e上执行衬衫折叠任务的先前经验,镜像了我们学习到的策略的"零样本"设置。

图21:人体受试者研究中操作者经验。箱线图显示十位 recruited 操作者在三个类别中的远程操作经验(小时):UR5e(目标机器人)、静态双臂机器人(源机器人)、所有机器人组合。所选操作者在远程操作经验方面排名在我们整个操作者群体的前2%。

实验流程:每位操作者进行三次试验,共产生30次总试验。为了匹配π0.7的零样本迁移设置,操作者在第一次尝试之前没有练习或热身阶段。初始衬衫配置(平放在桌子上)、时间限制和评估标准都与π0.7策略评估中使用的完全相同。操作者被指示最大化任务成功,与评估指标一致。我们使用与机器人实验相同的指标报告任务进度和成功率,确保直接公平比较。

结果:图22比较了π0.7 (GC)与相同零样本设置下的人类远程操作者。人类操作者平均任务进度为90.9%,成功率为80.6%。π0.7达到85.6%任务进度和80%成功率,证明尽管没有在UR5e平台上训练任何折叠数据,性能可与这些专家操作者媲美。这些结果强有力地证明了π0.7的零样本跨具身迁移能力。

图22:π0.7 (GC)与人类比较。我们发现π0.7 (GC)在UR5e双臂平台衬衫折叠任务中实现了与人类操作者相当的性能。

G. 详细任务描述和评分标准

洗衣(T恤和短裤):从洗衣篮中取出一条短裤或一件T恤,折叠成紧凑、整齐对齐的折叠,并适当放置/堆叠。评分:如果成功折叠物品并正确堆叠在其他衣物之上,则成功。

洗衣(多样化 — 最难物品):从洗衣篮中取出一件系扣衬衫,折叠成紧凑、整齐对齐的折叠,并适当放置/堆叠。评分:如果成功折叠物品并正确堆叠在其他衣物之上,则成功。

制作意式浓缩:执行意式浓缩工作流程,准备并萃取双倍浓缩咖啡(doppio),顺序和位置正确。评分:如果按顺序完成所需步骤则成功:分配并压粉,portafilter锁定到正确的出水口,完成萃取,杯子放在碟子上并移到右侧。

装箱:将平盒组装成3D盒子。评分:如果盒子正确折叠且没有重大损坏,则成功。

制作花生酱三明治:制作花生酱三明治,对角线完全切开,放在盘子上;盖上花生酱罐;推盘子 away。最高分:9分。得分点:取下罐子盖子;逐渐推开花生酱;将plain slice放在上面;对角线完全切开;刀放回盘子;推盘子away;以及整体整洁度。

将衬衫内外翻转:从内向外的衬衫取出,完全翻到正面(躯干 + 两个袖子),折叠成紧凑形状。最高分:7分。+1 取回衬衫;+1 躯干正面朝外;+1 左袖正面朝外;+1 右袖正面朝外;+1 紧凑折叠;+1 放置在堆上;+1 放在右上角。

开车过门:打开自闭衣橱门,机器人完全开进去,最后关门,机器人在里面。最高分:3分。+1 开门;+1 开进去足够远让门关上;+1 顺畅进入不撞到门框。

切西葫芦:用刀将西葫芦切成薄片,另一个夹爪固定西葫芦。最高分:3分。+1 正确拿起刀;+1 完全将西葫芦切成均匀薄片;+1 安全将刀放回砧板右侧。

水果蔬菜削皮:握住物品靠在砧板上,用另一个夹爪的削皮刀完全削皮。最高分:9分。+1 拿起削皮刀;+1 削皮达到25%;+1 削皮25–50%;+1 削皮50–75%;+1 削皮 >75%;+1 将水果/蔬菜放进碗;+1 刮25–50%食物残渣进垃圾桶;+1 刮50–75%食物残渣进垃圾桶;+1 刮 >75%食物残渣进垃圾桶。

倒垃圾:取出旧垃圾袋,放在远离垃圾桶的地方,给垃圾桶套上新袋子,将垃圾桶放回原位(并关上柜子/更换盖子)。最高分:12分。

取出垃圾桶(3分):+2 如果机器人正确打开垃圾桶(打开水槽下柜门);+1 如果机器人将垃圾桶从水槽下移到厨房地板上可访问位置。

从垃圾桶取出(3分):+1 如果机器人把垃圾袋从垃圾桶角拉开;+1 如果机器人收集并安全提起垃圾袋离开垃圾桶;+1 如果机器人将垃圾袋从垃圾桶取出放在垃圾桶附近地板上。

更换袋子(3分):+1 如果机器人拿起替换垃圾袋;+1 如果机器人打开替换袋;+1 如果机器人将替换垃圾袋完全放进垃圾桶,并把边缘安全拉伸到垃圾桶口。

放回垃圾桶(3分):+2 如果机器人抬起并将垃圾桶放回水槽下柜子;+1 如果机器人在episode结束后完全关上柜门。

交换三个马克杯:依次将三个马克杯放到咖啡机滴滤盘上(一次一个),确保每个马克杯占据滴滤盘,在放置下一个之前将马克杯放回桌子,按要求。最高分:4分。+1 将马克杯1从咖啡机取出放到桌子;+1 将马克杯2从桌子放到咖啡机;+1 将那个马克杯2从咖啡机取出放到桌子;+1 将剩余马克杯3放到咖啡机桌子上。

找出物体:取出藏在抽屉里的物体,恢复干净的最终场景(物体放在桌子上,抽屉关上)。最高分:4分。+1 完全打开目标抽屉一次就成功;+1 拿起海绵棒;+1 将海绵棒放在桌子上(任何地方);+1 关上打开的目标抽屉。

舀咖啡豆:使用量杯将正好两勺咖啡豆舀进研磨机,然后关上研磨机盖子。最高分:5分。+1 打开咖啡研磨机;+1 抓住勺子;+1 成功收集并将第一满勺咖啡豆倒进研磨机;+1 成功收集并将第二满勺咖啡豆倒进研磨机;+1 关上咖啡研磨机盖子。

开车穿过门:(此处原文未完成)

0 Comments