计算机视觉的惨痛教训(The Bitter Lesson of Computer Vision)

计算机视觉的惨痛教训(The Bitter Lesson of Computer Vision)

作者: Vincent Sitzmann
原文: https://www.vincentsitzmann.com/blog/bitter_lesson_of_cv/
翻译日期: 2026/04/27


我相信,我们所熟知的计算机视觉即将消失。

从历史上看,我们一直将视觉视为从图像到中间表示的映射——类别、分割掩码或三维重建。但在"惨痛教训(Bitter Lesson)"的时代,这些不同的任务在质上与边缘检测已没有什么不同:它们都是将"可解的中间问题"作为范围界定的历史产物,而非解决智能本身。

虽然自然语言处理(NLP)中的"大语言模型时刻(LLM moment)"明确了语言建模就是最终目标,但视觉社区仍在争论自身革命的形式。我们继续为特定任务(如点跟踪、分割或三维重建)微调模型——即使世界模型(world models)已经出现,绕过了所有传统的中间表示,直接解决一个比我们社区过去所处理的一切问题都更加通用的问题。

在这篇文章中,我认为计算机视觉的未来是作为端到端感知-动作循环(end-to-end perception-action loops)的一部分。计算机视觉、机器人学习和控制之间的历史边界将会消融。前沿研究将不再在"看"和"学习行动"之间划定界限。

作为一个特例,我将讨论三维表示(3D representations)正在减弱的重要性:我预测,正如我们不再为检测任务手工设计特征一样,我们很快也将停止在具身智能(embodied intelligence)中使用三维表示。


1. 我们如何走到今天计算机视觉的范畴(How we arrived at today's scope of computer vision)

要理解这个领域将走向何方,先问"视觉究竟是什么"是有启发性的。

从历史上看,我们一直将视觉视为智能的"视觉感知"子模块——常被概括为"知道什么东西在哪里"。然而,这并不是一个定义明确的任务。它没有指定严格可证伪的输入-输出行为:输入当然是图像或视频——但输出是什么?因此,它不适合被明确地"解决"。

在现实世界中,感知有一个更清晰的度量标准:智能行动(intelligent action)。当智能体能够将当前和过去的感知映射到实现其目标的行动时,尤其是在面对新的、未见过的环境时,它就成功地感知了世界。这很容易证伪:我想能够向我的机器人演示一项任务,比如清空洗碗机,我期望机器人能成功完成这项任务。如果它成功了,它显然感知到了重要的东西。

那么,为什么我们不从一开始就从这个角度出发呢?在过去,直接学习感知-动作循环是不可行的。因为科学家的职责是研究可解的问题,所以我们将计算机视觉拆分了出来。社区聚焦在一个细分领域:构建将图像映射到中间表示的算法,这些中间表示看起来具有实际用途——分类、分割、光流估计、三维重建和同时定位与地图构建(SLAM, Simultaneous Localization and Mapping)。

与此同时,机器人学习和控制被界定为研究摄取这些特定表示——点云、边界框和掩码——并将它们映射到动作的算法。

这种分解是当时必要的妥协。然而,我相信这种具身智能的"模块化"模型正在迅速失去其存在的理由。


2. 案例研究:三维表示如何在训练具身智能模型中变得过时(Case study: How 3D may become obsolete for training embodied intelligence models)

Rich Sutton 的"惨痛教训(Bitter Lesson)"指出:"利用大规模计算的通用方法……始终优于人类手工设计的、针对特定任务的系统,即使后者在初期看起来很巧妙。"

在计算机视觉中,大多数研究者欣然将这一教训应用于算法,承认具有物理归纳偏置(physical inductive biases)的神经网络很少具有可扩展性。然而,令人惊讶的是,很少有人将同样的逻辑应用于表示(representations)。

以三维表示的概念为例,无论是点云、辐射场(radiance field)、有符号距离函数(signed distance function, SDF)还是体素网格(voxel grid)。考虑具身智能的基本循环:感知输入,动作输出。在一个我们可以训练端到端算法直接处理这种行为的世界里,手工设计一个显式的中间表示(如"三维结构")恰好成为惨痛教训所警告的那种巧妙的人类设计的瓶颈。

要理解原因,请尝试一个思想实验。看看你目前所在的房间。如果我给你这个场景的完美三维重建——一个神经辐射场(NeRF)、一个点云,随你选——你能用它解决什么实际问题?

当然有一些细分应用,比如新视角合成(novel view synthesis)。但对于任何涉及具身智能的任务,你仍然需要一个单独的智能算法来摄取那个三维表示并决定该做什么。整体的输入-输出行为仍然是图像到动作,这使得三维重建沦为一种巧妙的预处理步骤。在具身智能的长期发展中,这种分解将无法经受时间的考验。

事实上,许多传统上被认为依赖三维的任务已经被端到端学习更好地解决了。以新视角合成为例:少样本视角合成(few-shot view synthesis)的最先进方法已经有一段时间没有使用三维可微渲染(3D differentiable rendering)了,而是采用生成式世界模型(generative world models)。当我的学生 Boyuan 和 Kiwhan 开发 History-Guided Video Diffusion 时,他们生成了 RealEstate10k 数据集的新视角,效果远比我参与过的任何基于三维结构的算法都好——而且他们几乎是在不经意间做到的。

2.1 SE(3) 相机位姿也将消失(SE(3) Camera Poses Will Go, Too)

你可能会争辩说,这些生成模型仍然以相机位姿为条件,而相机位姿是通过传统的多视图几何(如 COLMAP)或学习得到的等效方法获得的。然而,我预测,就像三维表示一样,输出相机位姿的算法也将变得过时。我的实验室已经证明,新视角合成可以被纯粹形式化为表示学习问题——完全不需要多视图几何中的任何概念。没有位姿,没有三维。

自我运动(ego-motion,因此也包括相机位姿)仅仅是智能体能够采取的最基本的动作。它并不特殊。最终,我们必须解决这样一个问题:一个 AI 控制一个它从未 inhabits 过的身体。在这种背景下,推断自我运动与一个通用智能体必须解决的复杂控制问题相比是微不足道的。无论我们最终收敛到什么样的算法,它都会隐式地处理自我运动,而不需要我们将它硬编码进去。

2.2 要让模型擅长三维编辑,不要训练它们做三维编辑(To get models competent at 3D editing, don't train them for 3D editing)

那工程任务呢,比如建筑、计算机辅助设计(CAD)或制造?我们当然需要显式的三维表示来建造房子或三维打印发动机零件。我同意,对于人机界面来说,拥有三维网格表示和类似 CAD 的编辑器可能是合理的。然而,我的论点不是关于我们如何与机器交流,而是关于我们如何训练最终帮助我们自动化三维设计任务的模型。

在这里,再一次地,为了获得在协助操控物理和数字三维对象方面能力最强的模型,我们不应该训练它们显式地生成专家手工设计的三维表示,也不应该将这样的表示硬编码到它们的架构中。相反,我们的目标应该是直接在原始数据上训练通用物理智能(general-purpose physical intelligence)模型,让它们学习自己的内部、与任务相关的结构。这些内部表示不需要——而且很可能不会——对应于任何人类设计的三维分块、网格化或重建概念。只有在这样的模型被训练完成后,才应该针对我们人类喜欢使用的任何表示或工具链对其进行微调。

至于最后一步——制造实物——在不久的将来,我们同样会在三维打印机 API 或网格文件格式上微调模型。在非常长远的未来,我注意到三维打印机或挖掘机本质上就是机器人:我们希望通过 AI 实现自动化的物理机器。因此,我认为我们最终将以解决具身智能的更一般方式来解决这些三维制造的挑战,即让 AI 直接控制机器的执行器(actuators)。


3. 感知-动作循环与世界模型的核心挑战(The key challenge of perception-action loops and world models)

具身智能的核心挑战是大规模成对感知-动作数据的缺乏。在真实世界中部署大量机器人极其昂贵,即使我们能做到这一点,也不清楚该让它们做什么。收集有价值的数据需要智能体执行有意义、多样化的行为。今天,这主要通过遥操作(teleoperation)实现。这对于自动驾驶来说效果非常好——人类已经在开车了——但对于具有灵巧双手的人形机器人来说,它的扩展性要差得多。

长期目标是能够自主收集数据的机器人,由内在动机(intrinsic motivation)驱动——就像幼儿一样。虽然"内在奖励"的概念在强化学习(Reinforcement Learning, RL)社区有着丰富的历史,但当前的算法在样本效率上太低,无法部署在真实机器人上。此外,将大量具有本质上随机策略的智能体释放到物理世界中,在那里它们可能伤害自己和他人,根本是不可行的。

因此,这就是今天具身智能面临的核心问题:在没有直接访问大规模动作数据的情况下,我们如何朝着闭合感知-动作循环的方向前进?

这就是世界模型(world models)的用武之地。表面上看,它们可能只是另一个中间任务——学习的模拟器(learned simulators),本身并不能解决核心挑战。确实,仅凭它们自身,确实不能。

然而,它们确实提供了两个有前景的角度。

第一,视频(以及可能的音频)生成建模提供了一个明确可扩展的预训练目标(pre-training objective)。至关重要的是,视频不仅仅捕捉原始感官数据——它还隐式编码了大量关于物理和世界运作方式的信息,以及关于技能、任务及其结构的人类知识。训练一个有限神经网络来逼近这个复杂过程,可能会导致有用的表示,这些表示有望被用作基础,微调为具有实用技能(know-how)的策略。然而,这仍然是推测性的:到目前为止,我还不知道有任何明确的演示表明视频模型可以很容易地被微调为策略,尽管已经出现了一些早期迹象。

第二,通过将视频模型扩展为以动作条件化(action-conditional),它们可以作为训练智能体的模拟器。原则上,这使得一种数据放大的形式成为可能:昂贵的真实世界交互可以用来引导一个支持更丰富虚拟体验的模型。同时,这种方法暴露了一个基本的先有鸡还是先有蛋的问题。训练交互式世界模型需要成对的动作-观察数据,而这正是我们缺乏的资源——除了自动驾驶,那里这样的数据非常充足。毫不奇怪,现有的系统只表现出有限形式的交互性,通常让人联想到电子游戏,而这很可能构成了它们训练数据的很大一部分。

由于这些原因,我不相信视频生成模型会解决具身智能。它们甚至可能不是最终解决方案的必要组成部分。相反,它们应该被视为识别感知-动作学习可扩展预训练目标的几种早期尝试之一。然而,目前对于"正确"的预训练任务应该是什么,还没有明确的答案。对于闭合感知-动作循环所需的许多其他要素也是如此。关于内在动机、探索、长程记忆、持续学习以及使用大模型进行实时控制的问题仍然悬而未决。

然而,尽管如此,情况已经发生了变化:我相信我们现在正处于一个可以正面应对这些问题的时代。因此,这就是本文的核心观点:呼吁放弃计算机视觉和机器人学习之间的传统边界,转而思考当我们寻求构建既能感知又能行动的机器时所出现的问题。


致谢(Acknowledgements) 感谢 David Charatan、Hyunwoo Ryu、Ana Dodik 和 Lester Li 提供的宝贵反馈和文字编辑。


延伸阅读(Further Reading)


我们团队在这一方向上的工作(My group's work in this space)

0 Comments