为什么需要语言：从人类大脑看 VLA

从人类大脑开始。

人类有意识思维主要包含五个基本功能：理解、决策、回忆、记忆、抑制。这些功能协同工作，实现规划、解决问题、交流和任务完成。

许多人认为有意识活动占据了我们大脑容量的绝大部分——但事实并非如此。无意识思维才是我们心理生活的主角。这些自动无意识行为在我们意识控制之外运作：维持心跳和呼吸、本能趋避、面对危险时的战斗或逃跑反应，等等。

alt text

前额叶 vs 基底神经节

有意识思维主要由大脑的前额叶皮层（PFC）区域负责。PFC 负责决策和解决问题，它是人类进化中相对较晚出现的核心脑区。因此，前额叶是深思熟虑的核心——在任何时刻承载着我们的思想内容。

无意识自动思维主要使用另一个叫做基底神经节的脑区，这是大脑中更古老的部分，节能效果惊人。一旦一项活动重复几次，基底神经节就会接管，活动不再消耗过多能量。想想开车：你刚开始学开车时需要全神贯注。但一旦掌握，在简单场景你可以下意识开车——许多人可以一边开车一边轻松听播客或音乐。因为基底神经节处理很快，它也被称为系统 1（快系统）。

相反，前额叶——进化相对较晚——只占大脑体积的 4-5%。比例虽小，但它极其耗能：前额叶消耗葡萄糖和氧气的速度惊人。此外，大脑为决策和冲动控制分配了固定有限的能量预算，使用后会逐渐消耗。这解释了为什么你累了或饿了大脑会"变慢"。另外，在紧急情况下，大脑会为系统 1 保留能量。因为前额叶处理更慢，它也被称为系统 2（慢系统）。

序列 → 模式 → 语言

基底神经节擅长构建模式。它无意识地提取模式，这在 Nissen 和 Bullemer 1987 年提出的序列反应时（Serial Reaction Time, SRT）范式中得到证明。

在 SRT 实验中，参与者根据屏幕上灯光闪烁位置按四个键之一。参与者分为两组： - 一组看到灯光完全随机位置 - 另一组看到灯光遵循复杂、重复的模式，微妙到参与者无法有意识识别

结果呢？基底神经节仍然提取了模式——第二组平均比随机组快 10%。更有趣的是：当一些参与者确实有意识注意到模式并能口头描述它，他们的反应速度比随机组快 30-50%。

SRT 实验揭示我们无意识学习复杂规则，最惊人的是SRT 任务表现和语言能力之间的相关性。事实上，SRT 模拟了语言习得的核心过程：

序列依赖

SRT： 灯光 1 总是跟着灯光 3。 语言： 在英语中，"The" 后面极可能跟着名词（例如 "cat"）而不是动词（例如 "went"）。 共性： 两者都涉及从线性序列中隐式提取规则。

非相邻依赖

更高级的 SRT 实验包含 A-X-B 这种复杂模式，其中 X 是干扰，A 预测 B 的出现。 语言等价： 主谓一致或长距离依赖。

示例："The boy [who is wearing a red hat] is running."

大脑必须记住开头的"boy"（A），跳过修饰从句（X），预测动词必须是"is"（B）而不是"are"。

发现：在 SRT 任务中能很好学习这些复杂模式的人，通常也有更强的语法能力。

语言的本质：结构化模式系统

语言本身就是一个多层复杂模式系统：

1. 语音模式

每种语言都有自己特定的发音规则和组合。例如，在英语中，/st/ 可以出现在词首（比如 "stop"），但 /ts/ 不行（外来词除外）。人类婴儿通过倾听环境中的说话，学习并内化这些允许的语音模式。

2. 词法模式

词语由更小的有意义单元（语素）构建而成。模式识别让我们理解词尾如何改变意义。例如：我们认识到英语中 -ed 模式表示过去时态（"walked"），而 -s 模式表示复数（"cats"）。

3. 句法模式（语法）

这是最明显的模式层级。语言语法本质上是将词组合成有意义句子的规则系统。例如，许多语言遵循"主谓宾"（SVO）模式。学习语言就是学习这种词序模式，并能识别无效模式（不合语法的句子）。

4. 语义模式

词义和用法不是随机的——它们存在于网络中。例如，"cat"和"dog"都属于"宠物"或"动物"模式类别。

模式层级

2005 年，Scientific American Mind 发表了一篇关于国际象棋大师如何使用组块记住棋局配置的文章。大师不会计划数百步——相反，他们记住组块和抽象典型模式，创建我们称之为模式层级的东西。

当我们用语言描述模式时，语言本身已经是多层递归的。语言独特适合表达更高层级模式。这是使用语言的另一个关键优势。

Thinking Machine 示例

Thinking Machine 的 Tinker 项目最近一个例子证明，视觉-语言模型（VLM）与纯视觉模型（如 DINOv2）相比，具有更好的泛化和少样本学习能力。使用 Qwen3-VL 和 DINOv2，只需要很少额外数据——每个类别一个示例——结果显示 VLM 性能显著更好。

在数据有限情况下，Qwen3-VL-235-A22B 优于 DINOv2。这不只是因为模型更大，作为 VLM，它开箱即用就带有语言知识（即"金毛"或"向日葵"是什么）。Qwen3-VL 这种通用语言-视觉能力使其可以直接用于分类之外的视觉任务。

总结

通过语言学习，人类获得了通用模式学习方法。当面对许多类型的规律性，我们用语言描述它们并记入记忆。这让基底神经节在类似问题出现时能快速正确响应。相应地，在 VLA（Vision-Language Action）训练中，使用基于语言的系统建模模式能更快掌握规律性，在推理时产生更好响应。

视觉与语言

人类大脑构建视觉心理意象——这是极其高效的信息结构，包含海量信息：物体之间复杂关系、尺寸、相对位置，等等。视觉通路比语言回路进化早数百万年，效率更高。例如，如果你要解决逻辑问题，通过视觉意象而不是抽象概念解释能显著提高效率。

语言概念也可以通过想象用来构建视觉意象：

视觉皮层（枕叶）：即使没有外部刺激，初级视觉皮层（V1、V2）和更高视觉区域也能被激活，创建"视觉缓冲"。这作为大脑的"屏幕"，呈现想象场景，虽然激活强度比真实感知更弱。
前额叶皮层：负责设置想象目标，指导整个过程，执行高层规划和决策。它就像"指挥"，主动从记忆提取信息，组装成视觉场景。
海马：从长期记忆提取与概念相关的视觉记忆片段。例如，当你想到"苹果"，海马会拉出你以前见过苹果的形状和颜色记忆痕迹。
顶叶和颞叶联合皮层：整合多感官信息，形成物体的完整表示。顶叶处理空间布局（"哪里"），而颞叶处理语义分类（"什么"）。

这个过程可以理解为自上而下生成模拟：

触发阶段：内部或外部线索（语言、问题、情绪）激活默认模式网络，向记忆系统发送指令。
记忆解构与提取：海马解构与概念相关的记忆，提取相关视觉片段（颜色、形状、空间关系）。
联合整合：顶叶和颞叶将片段整合成连贯表示，赋予空间结构和语义一致性。
视觉渲染：整合信号通过反馈连接投射回视觉皮层。神经科学家 Stephen Grossberg 将这种机制称为"折叠反馈"——来自前额叶和高层视觉区域的预测信号反向激活低层视觉区域，让视觉皮层"好像真的看见一样"激活。这种激活模式类似真实感知，但更弱更不稳定。
注意调节：前额叶和顶叶分配注意资源，调整想象内容的清晰度和细节。想象越生动，视觉皮层激活越强。

视觉意象与语言回路

视觉意象和语言回路具有互补关系： - 结构化视觉输入为语言符号提供锚点 - 语言符号通过递归组合，给视觉意象提供因果链和叙事结构

如果你剥夺系统的视觉空间画板，语言仍然可以工作——但它失去了"场景想象"，退化成列表式陈述。如果你冻结语音回路，视觉意象仍然可以被感知——但无法生成时间序列和推理链。

因此，结构化模式的基础部分依赖视觉回路提供的"同步平行语义场"。没有多模态脚手架，语言的结构骨架仍然存在，但血肉会枯萎。

最终总结

语言和视觉共同构成人类大脑的基础系统。这篇对两个基础系统的简要概述说明了为什么视觉和语言对 VLA 都是不可或缺。我们希望这个视角能为你的工作提供一些有用指导。

灵感来源于 bobin 的知乎原文

Why Language: Human Brain Perspective