《OAT: Ordered Action Tokenization》深度解读
论文信息 - 作者:Chaoqi Liu, Xiaoshen Han, Jiawei Gao, Yue Zhao, Haonan Chen, Yilun Du (哈佛大学、斯坦福大学) - 发表时间:2026年2月 - arxiv:2602.04215 - 项目主页:ordered-action-tokenization.github.io
一句话总结
本文系统研究了自回归机器人策略中动作分词(action tokenization)问题,明确提出了动作分词的三个核心 desiderata(高压缩率、完全可解码、因果有序性),并设计了 OAT(Ordered Action Tokenization) 方法,是首个同时满足三个属性的分词方案,在20多个任务上持续优于现有方法,并支持基于前缀的灵活推理。【原文 Abstract】
背景与动机
自回归序列模型已成为现代机器人学习的强大基础,特别是基于大Transformer的策略在机器人数据上直接训练后展现出强大的泛化能力【原文 §1 Introduction】。然而,机器人动作本质上是连续高维的,要应用自回归建模,必须先将连续动作分块离散化为一系列离散token——这个过程就是动作分词(action tokenization)。
尽管分词在自然语言和计算机视觉中已经被深入研究,但它从根本上影响了学习动态、模型容量利用率、可扩展性和下游性能,而在机器人控制领域,动作分词仍然远未被充分理解【原文 §1 Introduction】。
现有方法都无法同时满足三个关键属性:
| 属性 | 要求 |
|---|---|
| P.1 高压缩率(High Compression) | token数量要足够少,便于自回归建模,同时保留足够信息重建原始动作分块 |
| P.2 完全可解码性(Total Decodability) | 解码器必须是全函数——任意token序列都能映射到有效的动作分块 |
| P.3 因果有序性(Causal Ordering) | token序列具有从左到右的因果结构,与自回归next-token预测的归纳偏置对齐 |
论文指出,现有方法存在固有 trade-off: - 按维度分箱(Binning):满足 P.2,但不满足 P.1 和 P.3——token数量随动作维度线性增长,长预测范围会产生极长序列,且token顺序是按维度序列化而非因果结构化【原文 §3.A Binning】 - 频率域方法(FAST):满足 P.1,但违反 P.2——BPE产生变长序列,无法保证任意token序列都能解码为固定维度的有效动作,可能导致运行时失败【原文 §3.B Frequency-domain Transform】 - 潜变量量化(Quantized Latents):能达到 P.1 和部分 P.2,但不满足 P.3——学习到的token空间缺乏一致的有序层次结构,不适合自回归预测【原文 §3.C Quantized Latents】
简言之,现有方法最多只满足三个 desiderata 中的两个,而 OAT 是第一个同时满足全部三个的方法【原文 §1 Introduction】。
核心方法
OAT 整体架构
OAT 的目标是学习一个同时满足三个属性的动作分词器。整体架构如图:
- 编码器:使用带register token的Transformer encoder将连续动作分块编码
- 量化:用有限标量量化(FSQ)将潜变量离散化为token
- 有序化诱导:通过嵌套dropout(nested dropout)和因果注意力(causal attention)自然诱导出有序结构
- 解码器:条件解码器从离散token重建连续动作【原文 §4 OAT: Ordered Action Tokenization】
关键洞察:early tokens应该捕获动作分块的粗糙全局结构,而later tokens逐步细化细节——这种排序不是人工启发式指定的,而是通过训练目标自然涌现出来的【原文 §4.B Inducing Token Ordering】。
两个有序化机制
OAT 通过两种互补机制来在token空间中强加顺序:
1. 嵌套dropout(Nested Dropout): - 训练时随机保留前 K 个token,mask掉剩余的 H_l - K 个 - 这鼓励编码器按照重要性优先级将信息打包进register tokens,重要信息在前,细节在后【原文 §4.B】 - 结果:简单动作可以用较少token准确表示,复杂动作需要更多token,自然支持可变长度推理
2. 因果注意力(Causal Attention): - 在register tokens上施加因果注意力结构 - 第 i 个register token只能关注到前 i 个tokens - 这进一步强化了从左到右的信息流,使学到的顺序与自回归预测对齐【原文 §4.B】
前缀解码与 anytime 推理
由于OAT具有自然的有序结构,它支持基于前缀的解码(prefix-based decoding): - 自回归生成不需要一直生成到最大长度,可以在任意前缀处停止 - 任意前缀 T_1:K 都可以解码为有效的动作分块【原文 §4.D】 - 这实现了anytime 推理:计算约束紧的时候用短前缀快速得到粗略结果,约束松的时候用长前缀得到更精细动作
这是OAT相对于以往fixed-length分词方法的关键优势【原文 §4.D】。
信息论视角
从香农信息论角度看,OAT学到的有序序列可以看作对动作信息的隐式渐进编码: - 早期token被鼓励捕获跨多条轨迹共享的主导运动模式 - 后期token逐步纠正残差误差和局部细节 - 这符合香农的经典结论:常见模式需要较少比特编码,稀有偏差需要更多比特【原文 §4.C】
实验与结果
论文在四个仿真基准(LIBERO, RoboMimic, MetaWorld, RoboCasa)和两个真实世界机器人操作任务上进行了全面评估,对比了Diffusion Policy(DP)、Binning、FAST、QueST等方法。【原文 §V Experiments】
仿真基准结果
| 方法 | LIBERO | RoboMimic | MetaWorld | RoboCasa |
|---|---|---|---|---|
| DP (扩散) | 36.6 | 67.1 | 19.3 | 54.0 |
| Bin | 14.4 | 39.5 | 14.5 | 27.7 |
| FAST | 23.0 | 24.0 | 7.1 | 13.2 |
| QueST | 48.2 | 66.9 | 17.9 | 52.3 |
| OAT₁ | 11.7 | 50.8 | 11.3 | 47.7 |
| OAT₂ | 39.8 | 52.5 | 16.4 | 50.3 |
| OAT₄ | 46.4 | 65.3 | 19.5 | 51.7 |
| OAT₈ | 56.3 | 73.1 | 24.4 | 54.6 |
表中数字为成功率,越高越好。OAT_K 表示使用前 K 个token解码。【原文 Table 1】
关键发现: - OAT 持续优于之前的动作分词方案【原文 §B Simulation Benchmarking】 - 随着解码token数量增加,性能单调提升——这验证了"早期token抓全局,后期token补细节"的设计思想【原文 §B】 - 即使只用 OAT₄(4个token),性能也已经接近QueST;OAT₈超过了所有baseline包括扩散模型【原文 Table 1】
推理延迟对比
| 方法 | #Tokens | Latency (ms) |
|---|---|---|
| DP | 224 | 412.0 |
| Bin | 224 | 509.5 |
| FAST | 44.2 | 114.4 |
| QueST | 8 | 29.6 |
| OAT₈ | 8 | 30.0 |
【原文 Table 2】
OAT 在保持与QueST相同延迟(8 tokens)的情况下,取得了更高的成功率【原文 §C.1】。
消融实验
有序性重要吗? 去掉有序诱导机制后,性能在所有四个基准上都显著下降:
| 方法 | LIBERO | RoboMimic | MetaWorld | RoboCasa |
|---|---|---|---|---|
| OAT₈ | 56.3 | 73.1 | 24.4 | 54.6 |
| OAT×(去掉有序化) | 35.2 | 61.1 | 17.6 | 48.5 |
性能下降10-12个百分点【原文 Table 3】。这证明token空间结构对自回归策略学习至关重要,有序化带来的归纳偏置确实有助于学习和推理【原文 §C.2】。
码本大小影响? 适度容量就足够,进一步增大码本会导致性能下降:
- 码本大小从 240 增加到 1000,性能从 29.2 提升到 56.3
- 继续增大到 4375,性能下降到 46.9【原文 Table 4】
原因是更大码本增加了token熵和稀疏性,使得next-token预测更困难,尽管重建保真度提高了,但下游策略建模更难【原文 §C.4】。
真实世界实验结果
在真实机械臂的桌面操作任务上(Pick & Place Ball, Stack Cups):
| 方法 | P&P Ball | Stack Cups |
|---|---|---|
| DP | 14/20 | 11/20 |
| Bin | 4/20 | 8/20 |
| FAST | 8/20 | 6/20 |
| QueST | 11/20 | 8/20 |
| OAT₈ | 16/20 | 16/20 |
【原文 Table V】
OAT在真实任务上也持续取得最高成功率,并且随着解码token数量增加,性能稳定提升。定性观察发现,OAT生成的运动明显更平滑,常见失败模式是精度不足而非完全失效——早期token已经捕捉到全局结构,只差精细调整【原文 §D Real-world Results】。
亮点与局限
亮点: - 首次系统明确提出动作分词的三个核心 desiderata,指出了现有方法的根本局限【原文 §3】 - OAT设计简洁,通过嵌套dropout和因果注意力自然诱导有序性,不需要手工指定层次结构【原文 §4.B】 - 第一个同时满足三个属性的动作分词方法,在20+任务上持续优于SOTA【原文 §5】 - 原生支持anytime推理,可以在计算量和动作保真度之间灵活权衡,这对实际部署非常有价值【原文 §4.D】 - 结果在仿真和真实世界都一致成立,鲁棒性好【原文 §D】
局限(原文承认的): - 本文中自回归深度在部署时是固定的,未能根据动作复杂度自适应调整【原文 §6 Discussion】 - 虽然有序化支持可变长度,但token数仍然需要预先确定上限【原文 §6】
局限(解读者补充): - 实验主要在单臂操作场景验证,尚未在更大尺度的问题(比如全身运动、双机器人协作)测试(此为解读者推断,非原文) - 训练分词器需要额外的重建损失,相对于非学习的分箱方法增加了一些训练开销(此为解读者推断,非原文)
影响力与意义
这篇论文的重要性不止于提出OAT这个具体方法,更在于它把动作分词这个一直被低估的问题推到了聚光灯下,系统化地建立了问题框架和评价标准。
在当前VLA(Vision-Language-Action)模型大发展的背景下,很多工作都在结合离散自回归和连续扩散,OAT提供了一个原则性的离散化方案,可以作为扩散模型的"专家"模块互补,为未来VLA流水线提供了自然的中间抽象层次【原文 §6】。
关键启示:在自回归机器人策略中,动作表示的结构和顺序真的很重要——好的表示能够让Transformer的归纳偏置更好地发挥作用,这比单纯堆参数更有效。
延伸阅读
- FAST: Efficient Action Tokenization [50] — 频率域方法,OAT的主要对比基准之一
- QueST: Self-supervised skill abstractions [45] — 基于量化潜变量的方法
- Diffusion Policy [13] — 基于扩散的非自回归基准
- RT-2, OpenVLA — 相关的VLA系统,都可以受益于更好的动作分词
Comments (0)
Please sign in to leave a comment.