《LAP: Language-Action Pre-Training Enables Zero-shot Cross-Embodiment Transfer》深度解读

论文信息 - 作者：Lihan Zha, Asher J. Hancock, Mingtong Zhang, Tenny Yin, Yixuan Huang, Dhruv Shah, Allen Z. Ren, Anirudha Majumdar - 机构：普林斯顿大学 Physical Intelligence - 发表时间：2026年2月 - arXiv：https://arxiv.org/abs/2602.10556 - 官方博客：未找到

一句话总结

本文提出语言-动作预训练（Language-Action Pre-training, LAP）方法，通过将机器人底层动作直接表示为自然语言描述，解决了现有视觉-语言-动作模型（Vision-Language-Action, VLA）在未见机器人本体（embodiment）上零样本迁移性能差的问题，在真实机器人实验中实现了超过50%的平均零样本成功率，相比之前最强方法提升了约2倍。

alt text

背景与动机

构建一个可以零样本部署到新型机器人本体的通用机器人策略（generalist robot policy）仍然是一个未解决的问题。尽管大规模多本体预训练已经取得了不少进展，现有的视觉-语言-动作模型（VLAs）仍然与训练时所用的机器人本体紧密绑定，在新本体上需要昂贵的微调才能工作【原文 §1 Introduction】。

核心挑战在于：机器人本体空间非常大，通过数据覆盖所有本体的成本极高——任务和环境多样性可以通过野外数据扩展，但本体多样性受硬件可用性限制【原文 §1 Introduction】。

本文的关键观察是：零样本跨本体迁移的性能关键取决于预训练视觉语言模型（VLM）如何适配运动控制。机器人既要获得精确控制能力，又要保留支持迁移的语义和视觉表征，但标准的VLA训练会导致分布不匹配（distributional mismatch），破坏预训练学到的知识【原文 §1 Introduction】。

核心方法

核心思路：用自然语言表示动作

LAP的核心思想是训练VLA预测语言动作（language-actions）——对末端执行器（end-effector）动作净效果的自然语言描述（例如"向左移动5厘米"）。这些描述是在固定坐标约定和模板下从原始动作解析而来，不需要额外标注【原文 §1 Introduction】。

这种做法避免了标准VLA方案的分布不匹配问题。标准VLA通常使用连续关节/末端命令，或者用任意词元离散化，这些都与预训练VLM的词分布不匹配【原文 §1 Introduction】。

语言动作构建

语言动作是对末端执行器增量运动（delta motions）的自然语言描述，直接从末端轨迹解析，无需人工标注： - 坐标约定：+x 向前，+y 向左，+z 向上，欧拉角遵循右手定则【原文 §3.2】 - 模板描述：平移用"move"，滚转/俯仰用"tilt"，偏航用"rotate"【原文 §3.2】 - 幅度离散化为整数值（平移单位为厘米）【原文 §3.2】 - 一个语言动作总结一个动作块（action chunk）的净位移，而不是每个时间步生成一个【原文 §3.2】 - 训练时50%用机器人基坐标系，50%用末端坐标系【原文 §3.2】

这种表示的优势：避免分布不匹配，不需要学习动作分词器，自然与VQA（Visual Question Answering）任务格式对齐（例如从图像对预测运动）【原文 §3.2】。

模型架构：混合设计

LAP-3B采用混合设计： 1. VLM主干（PaliGemma-3B）：用LAP预训练，负责语言动作预测 2. 轻量化动作专家（action expert）：基于流匹配（flow-matching），用于高频连续控制【原文 §3.3】

训练过程： - VLM主干用交叉熵损失优化语言动作预测 - 动作专家通过流匹配目标预测连续动作块 - 整体训练目标结合两个损失 - 通过知识隔离（knowledge insulation）阻止动作专家的梯度回传VLM，保护预训练表征【原文 §3.3】

推理时：只运行动作专家，可达到25Hz控制频率（RTX 4090上）【原文 §3.3】

训练细节

数据：Open X-Embodiment (OXE) 数据集 + MolmoAct 数据集【原文 §3.4】
本体感觉：笛卡尔末端位姿（位置、连续6D旋转、二值夹爪状态）离散化为255个桶，以文本词元形式追加到prompt【原文 §3.4】
训练规模：64块TPU v6e，全局batch size 2048，15k梯度步（约10小时，0.65个epoch）【原文 §3.4】

实验与结果

论文在4种机器人本体、10个真实世界操纵任务、LIBERO仿真基准上进行了评估，共进行了超过1300次真实机器人评估试验【原文 §4 Experiments】。

1. 零样本跨本体迁移

测试设置： - 见过的本体：DROID setup - 未见本体：定制7自由度Franka Panda、6自由度YAM、7自由度Kinova - 任务：每个本体2个任务，每个任务20次试验

结果： - 见过的本体：LAP-3B比π₀.₅-replicated/π₀-replicated高出约15个百分点，与专门在DROID上微调的π₀.₅-DROID性能相当【原文 §4.1】 - 未见本体：LAP-3B达到超过50%的平均零样本成功率，相比最强基线提升约2倍，是唯一一个在所有新本体上都保持高性能的模型；所有开源VLA在未见机器人上都无法生成有意义的行为【原文 §4.1】

2. 新本体上的微调效率

仿真（LIBERO）：LAP-3B收敛快得多——1个epoch后达到78%成功率，6个epoch内接近最大值（96.8%）；π₀.₅-Oracle经过长时间训练后渐近性能略高，但LAP-3B计算效率更优【原文 §4.2】

真实世界：在两个挑战性任务上（YAM上挂胶带、定制Franka上叠毛巾放入篮子），LAP-3B用20个演示就达到约50%任务进度，比基线少需要2.5倍数据，并且在所有数据规模上都持续优于基线【原文 §4.2】

3. 表征分析

T-SNE可视化：LAP-3B学到的本体特征在训练本体和未见本体之间有大量重叠，而基线方法π₀.₅-replicated的特征形成分开的簇【原文 §4.3】
动作预测误差：LAP-3B在训练过程中对留存的未见本体始终保持更低的预测误差，且下降平滑稳定【原文 §4.3】

4. 与视觉语言数据集联合训练

与运动预测VQA任务（从两张连续图像预测语言动作）联合训练可以提升跨本体性能，产生更精确的动作生成和空间泛化，并且模型更容易适应新任务（微调更快，最终收敛更高）【原文 §4.4】

5. 模型规模缩放

使用Gemma3作为主干，不同规模的LAP模型（4B、12B、27B参数）都表现出一致的验证损失下降和良好的缩放性（容量增加，性能单调提升），而基线方法π₀.₅-replicated在更大规模下会饱和甚至性能下降【原文 §4.5】

亮点与局限

亮点： - 首次在不进行单本体微调的情况下，在未见机器人本体上实现了可观的零样本迁移成功【原文 Abstract】 - 方法简洁优雅：不需要学习分词器，不需要昂贵标注，不需要针对特定本体设计【原文 Abstract】 - 相比之前最强VLA方法，零样本成功率提升约2倍（从~25%到~50%+）【原文 §4.1】 - 微调效率提升：达到相同性能需要的数据减少达2.5倍【原文 §1】 - 支持良好的缩放：模型越大性能持续提升，不像基线在大尺寸下性能下降【原文 §4.5】 - 将动作预测和VQA统一到相同格式，联合训练可以进一步提升性能【原文 §4.4】

局限（原文承认的）： - 只关注单臂操纵机器人，尚未测试双臂机器人【原文 §5 Conclusions and Discussions】 - 没有在高控制频率/极高精度场景评估【原文 §5】 - 未来工作方向包括：双臂机器人、人体姿态跟踪/UMI/互联网视频数据、分层/多尺度语言动作表示【原文 §5】

《LAP: Language-Action Pre-Training Enables Zero-shot Cross-Embodiment Transfer》深度解读

《LAP: Language-Action Pre-Training Enables Zero-shot Cross-Embodiment Transfer》深度解读

一句话总结

背景与动机

核心方法

核心思路：用自然语言表示动作

语言动作构建

模型架构：混合设计

训练细节

实验与结果

1. 零样本跨本体迁移

2. 新本体上的微调效率

3. 表征分析

4. 与视觉语言数据集联合训练

5. 模型规模缩放

亮点与局限

延伸阅读

Comments (0)