《OAT: Ordered Action Tokenization》深度解读

《OAT: Ordered Action Tokenization》深度解读

论文信息 - 作者:Chaoqi Liu, Xiaoshen Han, Jiawei Gao, Yue Zhao, Haonan Chen, Yilun Du (哈佛大学、斯坦福大学) - 发表时间:2026年2月 - arxiv:2602.04215 - 项目主页:ordered-action-tokenization.github.io


一句话总结

本文系统研究了自回归机器人策略中动作分词(action tokenization)问题,明确提出了动作分词的三个核心 desiderata(高压缩率、完全可解码、因果有序性),并设计了 OAT(Ordered Action Tokenization) 方法,是首个同时满足三个属性的分词方案,在20多个任务上持续优于现有方法,并支持基于前缀的灵活推理。【原文 Abstract】


背景与动机

自回归序列模型已成为现代机器人学习的强大基础,特别是基于大Transformer的策略在机器人数据上直接训练后展现出强大的泛化能力【原文 §1 Introduction】。然而,机器人动作本质上是连续高维的,要应用自回归建模,必须先将连续动作分块离散化为一系列离散token——这个过程就是动作分词(action tokenization)

尽管分词在自然语言和计算机视觉中已经被深入研究,但它从根本上影响了学习动态、模型容量利用率、可扩展性和下游性能,而在机器人控制领域,动作分词仍然远未被充分理解【原文 §1 Introduction】。

现有方法都无法同时满足三个关键属性:

属性 要求
P.1 高压缩率(High Compression) token数量要足够少,便于自回归建模,同时保留足够信息重建原始动作分块
P.2 完全可解码性(Total Decodability) 解码器必须是全函数——任意token序列都能映射到有效的动作分块
P.3 因果有序性(Causal Ordering) token序列具有从左到右的因果结构,与自回归next-token预测的归纳偏置对齐

论文指出,现有方法存在固有 trade-off: - 按维度分箱(Binning):满足 P.2,但不满足 P.1 和 P.3——token数量随动作维度线性增长,长预测范围会产生极长序列,且token顺序是按维度序列化而非因果结构化【原文 §3.A Binning】 - 频率域方法(FAST):满足 P.1,但违反 P.2——BPE产生变长序列,无法保证任意token序列都能解码为固定维度的有效动作,可能导致运行时失败【原文 §3.B Frequency-domain Transform】 - 潜变量量化(Quantized Latents):能达到 P.1 和部分 P.2,但不满足 P.3——学习到的token空间缺乏一致的有序层次结构,不适合自回归预测【原文 §3.C Quantized Latents】

简言之,现有方法最多只满足三个 desiderata 中的两个,而 OAT 是第一个同时满足全部三个的方法【原文 §1 Introduction】。


核心方法

OAT 整体架构

OAT 的目标是学习一个同时满足三个属性的动作分词器。整体架构如图:

  1. 编码器:使用带register token的Transformer encoder将连续动作分块编码
  2. 量化:用有限标量量化(FSQ)将潜变量离散化为token
  3. 有序化诱导:通过嵌套dropout(nested dropout)因果注意力(causal attention)自然诱导出有序结构
  4. 解码器:条件解码器从离散token重建连续动作【原文 §4 OAT: Ordered Action Tokenization】

关键洞察:early tokens应该捕获动作分块的粗糙全局结构,而later tokens逐步细化细节——这种排序不是人工启发式指定的,而是通过训练目标自然涌现出来的【原文 §4.B Inducing Token Ordering】。

两个有序化机制

OAT 通过两种互补机制来在token空间中强加顺序:

1. 嵌套dropout(Nested Dropout): - 训练时随机保留前 K 个token,mask掉剩余的 H_l - K 个 - 这鼓励编码器按照重要性优先级将信息打包进register tokens,重要信息在前,细节在后【原文 §4.B】 - 结果:简单动作可以用较少token准确表示,复杂动作需要更多token,自然支持可变长度推理

2. 因果注意力(Causal Attention): - 在register tokens上施加因果注意力结构 - 第 i 个register token只能关注到前 i 个tokens - 这进一步强化了从左到右的信息流,使学到的顺序与自回归预测对齐【原文 §4.B】

前缀解码与 anytime 推理

由于OAT具有自然的有序结构,它支持基于前缀的解码(prefix-based decoding): - 自回归生成不需要一直生成到最大长度,可以在任意前缀处停止 - 任意前缀 T_1:K 都可以解码为有效的动作分块【原文 §4.D】 - 这实现了anytime 推理:计算约束紧的时候用短前缀快速得到粗略结果,约束松的时候用长前缀得到更精细动作

这是OAT相对于以往fixed-length分词方法的关键优势【原文 §4.D】。

信息论视角

从香农信息论角度看,OAT学到的有序序列可以看作对动作信息的隐式渐进编码: - 早期token被鼓励捕获跨多条轨迹共享的主导运动模式 - 后期token逐步纠正残差误差和局部细节 - 这符合香农的经典结论:常见模式需要较少比特编码,稀有偏差需要更多比特【原文 §4.C】


实验与结果

论文在四个仿真基准(LIBERO, RoboMimic, MetaWorld, RoboCasa)两个真实世界机器人操作任务上进行了全面评估,对比了Diffusion Policy(DP)、Binning、FAST、QueST等方法。【原文 §V Experiments】

仿真基准结果

方法 LIBERO RoboMimic MetaWorld RoboCasa
DP (扩散) 36.6 67.1 19.3 54.0
Bin 14.4 39.5 14.5 27.7
FAST 23.0 24.0 7.1 13.2
QueST 48.2 66.9 17.9 52.3
OAT₁ 11.7 50.8 11.3 47.7
OAT₂ 39.8 52.5 16.4 50.3
OAT₄ 46.4 65.3 19.5 51.7
OAT₈ 56.3 73.1 24.4 54.6

表中数字为成功率,越高越好。OAT_K 表示使用前 K 个token解码。【原文 Table 1】

关键发现: - OAT 持续优于之前的动作分词方案【原文 §B Simulation Benchmarking】 - 随着解码token数量增加,性能单调提升——这验证了"早期token抓全局,后期token补细节"的设计思想【原文 §B】 - 即使只用 OAT₄(4个token),性能也已经接近QueST;OAT₈超过了所有baseline包括扩散模型【原文 Table 1】

推理延迟对比

方法 #Tokens Latency (ms)
DP 224 412.0
Bin 224 509.5
FAST 44.2 114.4
QueST 8 29.6
OAT₈ 8 30.0

【原文 Table 2】

OAT 在保持与QueST相同延迟(8 tokens)的情况下,取得了更高的成功率【原文 §C.1】。

消融实验

有序性重要吗? 去掉有序诱导机制后,性能在所有四个基准上都显著下降:

方法 LIBERO RoboMimic MetaWorld RoboCasa
OAT₈ 56.3 73.1 24.4 54.6
OAT×(去掉有序化) 35.2 61.1 17.6 48.5

性能下降10-12个百分点【原文 Table 3】。这证明token空间结构对自回归策略学习至关重要,有序化带来的归纳偏置确实有助于学习和推理【原文 §C.2】。

码本大小影响? 适度容量就足够,进一步增大码本会导致性能下降:

  • 码本大小从 240 增加到 1000,性能从 29.2 提升到 56.3
  • 继续增大到 4375,性能下降到 46.9【原文 Table 4】

原因是更大码本增加了token熵和稀疏性,使得next-token预测更困难,尽管重建保真度提高了,但下游策略建模更难【原文 §C.4】。

真实世界实验结果

在真实机械臂的桌面操作任务上(Pick & Place Ball, Stack Cups):

方法 P&P Ball Stack Cups
DP 14/20 11/20
Bin 4/20 8/20
FAST 8/20 6/20
QueST 11/20 8/20
OAT₈ 16/20 16/20

【原文 Table V】

OAT在真实任务上也持续取得最高成功率,并且随着解码token数量增加,性能稳定提升。定性观察发现,OAT生成的运动明显更平滑,常见失败模式是精度不足而非完全失效——早期token已经捕捉到全局结构,只差精细调整【原文 §D Real-world Results】。


亮点与局限

亮点: - 首次系统明确提出动作分词的三个核心 desiderata,指出了现有方法的根本局限【原文 §3】 - OAT设计简洁,通过嵌套dropout和因果注意力自然诱导有序性,不需要手工指定层次结构【原文 §4.B】 - 第一个同时满足三个属性的动作分词方法,在20+任务上持续优于SOTA【原文 §5】 - 原生支持anytime推理,可以在计算量和动作保真度之间灵活权衡,这对实际部署非常有价值【原文 §4.D】 - 结果在仿真和真实世界都一致成立,鲁棒性好【原文 §D】

局限(原文承认的): - 本文中自回归深度在部署时是固定的,未能根据动作复杂度自适应调整【原文 §6 Discussion】 - 虽然有序化支持可变长度,但token数仍然需要预先确定上限【原文 §6】

局限(解读者补充): - 实验主要在单臂操作场景验证,尚未在更大尺度的问题(比如全身运动、双机器人协作)测试(此为解读者推断,非原文) - 训练分词器需要额外的重建损失,相对于非学习的分箱方法增加了一些训练开销(此为解读者推断,非原文)


影响力与意义

这篇论文的重要性不止于提出OAT这个具体方法,更在于它把动作分词这个一直被低估的问题推到了聚光灯下,系统化地建立了问题框架和评价标准。

在当前VLA(Vision-Language-Action)模型大发展的背景下,很多工作都在结合离散自回归和连续扩散,OAT提供了一个原则性的离散化方案,可以作为扩散模型的"专家"模块互补,为未来VLA流水线提供了自然的中间抽象层次【原文 §6】。

关键启示:在自回归机器人策略中,动作表示的结构和顺序真的很重要——好的表示能够让Transformer的归纳偏置更好地发挥作用,这比单纯堆参数更有效。


延伸阅读

  • FAST: Efficient Action Tokenization [50] — 频率域方法,OAT的主要对比基准之一
  • QueST: Self-supervised skill abstractions [45] — 基于量化潜变量的方法
  • Diffusion Policy [13] — 基于扩散的非自回归基准
  • RT-2, OpenVLA — 相关的VLA系统,都可以受益于更好的动作分词

Comments (0)