论文解读: Look Before Acting: 增强视觉基础表示的视觉-语言-动作模型

标题与基本信息

标题: Look Before Acting: Enhancing Vision Foundation Representations for Vision-Language-Action Models
作者: Yulin Luo, Hao Chen, Zhuangzhe Wu, Bowen Sui, Jiaming Liu 等 (北京大学 + Simplexity Robotics + 香港中文大学)
提交日期: 2026年3月16日 (修订于3月17日)
arXiv ID: 2603.15618
领域: 计算机视觉与模式识别 (cs.CV)，机器人操作

核心问题

本文研究的是视觉-语言-动作 (VLA) 模型在机器人操作中的一个关键问题：为什么在更深层的网络中，模型对视觉信息的敏感度会逐渐下降？

现有VLA模型虽然通过大规模数据预训练取得了不错的进展，但普遍存在一个缺陷：视觉信息只在输入层注入，随着网络逐层传播，到深层时视觉特征逐渐衰减，模型对任务相关视觉区域的注意力变得越来越分散。这导致复杂精密操作任务中预测精度下降。

研究者指出，现有工作大多将LLM主干视为黑盒，只关注输入输出，很少分析内部视觉信息的使用方式，因此这个问题一直被忽略。

核心思想

作者通过系统性分析发现：在VLA模型中，浅层对视觉信息很敏感，而深层对视觉token的敏感度逐渐降低。基于这一观察，他们提出：

Vision-Language Mixture-of-Transformers (VL-MoT) 框架：引入一个独立的视觉专家 (Vision Expert) (使用DINOv3, 0.8B参数)，将其多层次视觉特征通过共享注意力机制注入到VLA主干的深层，增强深层视觉表示。
Action-Guided Visual Pruning (AGVP)：利用VLA浅层已经具备的良好视觉 grounding 能力，计算动作对视觉token的注意力，过滤掉无关背景token，只保留任务相关的重要视觉特征，以最小计算开销强化关键视觉线索。

该方法的核心直觉是："先看清楚再行动" —— 确保在预测动作的深层网络中仍然保有清晰、精确的视觉信息。

主要贡献

系统性分析：揭示了VLA模型中视觉信息利用率逐层下降的现象，通过定性可视化和定量masking实验验证了这一问题的存在。
VL-MoT框架：新颖的混合Transformer架构，让视觉专家与VLA深层共享注意力，有针对性地增强深层视觉敏感性。
AGVP策略：利用浅层动作注意力引导剪枝，高效保留任务关键区域，支持高分辨率输入。
优异性能：在模拟和真实世界任务中分别比现有SOTA高出9.0%和7.5%的成功率。

方法概述

1. 问题重述

标准VLA模型：给定视觉观察 o_t 和语言指令 l，学习策略 π(a_t | o_{≤t}, l) 预测机器人动作。通常由视觉编码器 + LLM主干 + 动作解码器三部分组成。

2. 关键发现

通过对三种代表性VLA架构 (OpenVLA, π0, QwenVLA-OFT) 的分层分析： - 浅层：masking任务相关区域会导致性能大幅下降 → 浅层高度依赖视觉信息 - 深层：masking任务相关区域对性能影响很小 → 深层几乎不利用视觉信息

3. VL-MoT框架设计

视觉专家：采用DINOv3提取多层次特征，因为它提供比VLA默认编码器更精细的空间表示
选择性连接：只将视觉专家连接到VLA的最深n层，针对问题最严重的区域
共享注意力机制：视觉专家和VLA主干分别计算QKV，投影对齐后拼接计算注意力，再分回两个分支，保留独立处理通路减少特征干扰

4. Action-Guided Visual Pruning (AGVP)

利用VLA浅层的动作-视觉注意力图，识别任务相关视觉区域
平均多个浅层的注意力得到稳定显著图
对视觉专家特征插值对齐后，只保留Top-K重要token，剪去冗余背景
好处：支持视觉专家输入更高分辨率图像，同时控制计算量

5. 训练与推理

预训练：在400K+轨迹的大规模机器人数据集上端到端训练
推理：先过VLA浅层得到注意力 → AGVP剪枝 → VL-MoT融合深层 → 动作解码，无需额外标注

实验结果

模拟实验 (RLBench 10任务)

模型	平均成功率
OpenVLA	40%
SpatialVLA	46%
CogACT	61%
CoT-VLA	66%
π0.5	65%
HybridVLA	74%
QwenVLA-OFT (基线)	69%
DeepVision-VLA	83%

DeepVision-VLA比基线提升了14%，比之前SOTA (HybridVLA)提升9%
在8/10个任务上达到最高成功率，"扫地到簸箕"任务从15%提升到95%

消融实验验证关键设计

方法	平均成功率
基线 (QwenVLA-OFT)	65.5%
早期融合 (输入层注入DINOv3)	73%
特征对齐 (固定DINOv3)	67%
VL-MoT (本文)	88%

其他结论： - 使用DINOv3最后16层特征效果最好 (88%)，优于均匀采样 (85%) 或前16层 (61.5%) - 用动作-视觉注意力引导剪枝效果最好 (88%)，优于语言-视觉注意力 (84%) 或全局CLS token (65.5%)

真实世界实验 (Franka机器人4个复杂任务)

模型	平均成功率
π0.5	84.2%
OpenVLA-OFT	71.7%
QwenVLA-OFT	74.2%
DeepVision-VLA	91.7%

超出最佳基线7.5%
在多阶段任务中表现尤其突出："倒可乐"任务两阶段都达到100%成功率

泛化能力

面对 unseen 背景和光照变化，DeepVision-VLA性能下降远小于基线： - 背景变化：基线下降18% → 本文只下降5% - 光照变化：基线下降18-22% → 本文只下降5-16%

局限性与未来工作

本文没有明确指出重大局限性，但从方法设计可以看出： - 需要额外引入一个视觉专家模型，增加了参数量和计算量 - 目前只验证了DINOv3作为视觉专家，其他视觉基础模型的效果有待探索 - 实验主要在单臂操作任务上，双臂和更复杂场景待验证

未来方向：探索不同视觉专家的效果，扩展到更多机器人形态和更复杂的长期任务。

意义与影响

本文的核心贡献是揭示了VLA模型中长期被忽视的问题，并给出了简洁有效的解决方案。主要启示：

在VLA设计中不能只关注输入层视觉编码，需要确保视觉信息能够有效传播到深层用于动作预测
通过混合专家架构和选择性剪枝，可以在不大幅增加计算量的前提下显著提升性能
增强视觉表示对提高复杂精密操作的成功率和域泛化能力都有很大帮助

该工作为未来视觉增强的VLA模型设计提供了新的思路和重要的基线参考。

论文解读：Look Before Acting - 增强视觉基础表示的视觉-语言-动作模型