为什么需要语言:从人类大脑看 VLA
从人类大脑开始。
人类有意识思维主要包含五个基本功能:理解、决策、回忆、记忆、抑制。这些功能协同工作,实现规划、解决问题、交流和任务完成。
许多人认为有意识活动占据了我们大脑容量的绝大部分——但事实并非如此。无意识思维才是我们心理生活的主角。这些自动无意识行为在我们意识控制之外运作:维持心跳和呼吸、本能趋避、面对危险时的战斗或逃跑反应,等等。

前额叶 vs 基底神经节
有意识思维主要由大脑的前额叶皮层(PFC)区域负责。PFC 负责决策和解决问题,它是人类进化中相对较晚出现的核心脑区。因此,前额叶是深思熟虑的核心——在任何时刻承载着我们的思想内容。
无意识自动思维主要使用另一个叫做基底神经节的脑区,这是大脑中更古老的部分,节能效果惊人。一旦一项活动重复几次,基底神经节就会接管,活动不再消耗过多能量。想想开车:你刚开始学开车时需要全神贯注。但一旦掌握,在简单场景你可以下意识开车——许多人可以一边开车一边轻松听播客或音乐。因为基底神经节处理很快,它也被称为系统 1(快系统)。
相反,前额叶——进化相对较晚——只占大脑体积的 4-5%。比例虽小,但它极其耗能:前额叶消耗葡萄糖和氧气的速度惊人。此外,大脑为决策和冲动控制分配了固定有限的能量预算,使用后会逐渐消耗。这解释了为什么你累了或饿了大脑会"变慢"。另外,在紧急情况下,大脑会为系统 1 保留能量。因为前额叶处理更慢,它也被称为系统 2(慢系统)。
序列 → 模式 → 语言
基底神经节擅长构建模式。它无意识地提取模式,这在 Nissen 和 Bullemer 1987 年提出的序列反应时(Serial Reaction Time, SRT)范式中得到证明。
在 SRT 实验中,参与者根据屏幕上灯光闪烁位置按四个键之一。参与者分为两组: - 一组看到灯光完全随机位置 - 另一组看到灯光遵循复杂、重复的模式,微妙到参与者无法有意识识别
结果呢?基底神经节仍然提取了模式——第二组平均比随机组快 10%。更有趣的是:当一些参与者确实有意识注意到模式并能口头描述它,他们的反应速度比随机组快 30-50%。
SRT 实验揭示我们无意识学习复杂规则,最惊人的是SRT 任务表现和语言能力之间的相关性。事实上,SRT 模拟了语言习得的核心过程:
序列依赖
SRT: 灯光 1 总是跟着灯光 3。 语言: 在英语中,"The" 后面极可能跟着名词(例如 "cat")而不是动词(例如 "went")。 共性: 两者都涉及从线性序列中隐式提取规则。
非相邻依赖
更高级的 SRT 实验包含 A-X-B 这种复杂模式,其中 X 是干扰,A 预测 B 的出现。 语言等价: 主谓一致或长距离依赖。
示例:"The boy [who is wearing a red hat] is running."
大脑必须记住开头的"boy"(A),跳过修饰从句(X),预测动词必须是"is"(B)而不是"are"。
发现:在 SRT 任务中能很好学习这些复杂模式的人,通常也有更强的语法能力。
语言的本质:结构化模式系统
语言本身就是一个多层复杂模式系统:
1. 语音模式
每种语言都有自己特定的发音规则和组合。例如,在英语中,/st/ 可以出现在词首(比如 "stop"),但 /ts/ 不行(外来词除外)。人类婴儿通过倾听环境中的说话,学习并内化这些允许的语音模式。
2. 词法模式
词语由更小的有意义单元(语素)构建而成。模式识别让我们理解词尾如何改变意义。例如:我们认识到英语中 -ed 模式表示过去时态("walked"),而 -s 模式表示复数("cats")。
3. 句法模式(语法)
这是最明显的模式层级。语言语法本质上是将词组合成有意义句子的规则系统。例如,许多语言遵循"主谓宾"(SVO)模式。学习语言就是学习这种词序模式,并能识别无效模式(不合语法的句子)。
4. 语义模式
词义和用法不是随机的——它们存在于网络中。例如,"cat"和"dog"都属于"宠物"或"动物"模式类别。
模式层级
2005 年,Scientific American Mind 发表了一篇关于国际象棋大师如何使用组块记住棋局配置的文章。大师不会计划数百步——相反,他们记住组块和抽象典型模式,创建我们称之为模式层级的东西。
当我们用语言描述模式时,语言本身已经是多层递归的。语言独特适合表达更高层级模式。这是使用语言的另一个关键优势。
Thinking Machine 示例
Thinking Machine 的 Tinker 项目最近一个例子证明,视觉-语言模型(VLM)与纯视觉模型(如 DINOv2)相比,具有更好的泛化和少样本学习能力。使用 Qwen3-VL 和 DINOv2,只需要很少额外数据——每个类别一个示例——结果显示 VLM 性能显著更好。
在数据有限情况下,Qwen3-VL-235-A22B 优于 DINOv2。这不只是因为模型更大,作为 VLM,它开箱即用就带有语言知识(即"金毛"或"向日葵"是什么)。Qwen3-VL 这种通用语言-视觉能力使其可以直接用于分类之外的视觉任务。
总结
通过语言学习,人类获得了通用模式学习方法。当面对许多类型的规律性,我们用语言描述它们并记入记忆。这让基底神经节在类似问题出现时能快速正确响应。相应地,在 VLA(Vision-Language Action)训练中,使用基于语言的系统建模模式能更快掌握规律性,在推理时产生更好响应。
视觉与语言
人类大脑构建视觉心理意象——这是极其高效的信息结构,包含海量信息:物体之间复杂关系、尺寸、相对位置,等等。视觉通路比语言回路进化早数百万年,效率更高。例如,如果你要解决逻辑问题,通过视觉意象而不是抽象概念解释能显著提高效率。
语言概念也可以通过想象用来构建视觉意象:
- 视觉皮层(枕叶):即使没有外部刺激,初级视觉皮层(V1、V2)和更高视觉区域也能被激活,创建"视觉缓冲"。这作为大脑的"屏幕",呈现想象场景,虽然激活强度比真实感知更弱。
- 前额叶皮层:负责设置想象目标,指导整个过程,执行高层规划和决策。它就像"指挥",主动从记忆提取信息,组装成视觉场景。
- 海马:从长期记忆提取与概念相关的视觉记忆片段。例如,当你想到"苹果",海马会拉出你以前见过苹果的形状和颜色记忆痕迹。
- 顶叶和颞叶联合皮层:整合多感官信息,形成物体的完整表示。顶叶处理空间布局("哪里"),而颞叶处理语义分类("什么")。
这个过程可以理解为自上而下生成模拟:
- 触发阶段:内部或外部线索(语言、问题、情绪)激活默认模式网络,向记忆系统发送指令。
- 记忆解构与提取:海马解构与概念相关的记忆,提取相关视觉片段(颜色、形状、空间关系)。
- 联合整合:顶叶和颞叶将片段整合成连贯表示,赋予空间结构和语义一致性。
- 视觉渲染:整合信号通过反馈连接投射回视觉皮层。神经科学家 Stephen Grossberg 将这种机制称为"折叠反馈"——来自前额叶和高层视觉区域的预测信号反向激活低层视觉区域,让视觉皮层"好像真的看见一样"激活。这种激活模式类似真实感知,但更弱更不稳定。
- 注意调节:前额叶和顶叶分配注意资源,调整想象内容的清晰度和细节。想象越生动,视觉皮层激活越强。
视觉意象与语言回路
视觉意象和语言回路具有互补关系: - 结构化视觉输入为语言符号提供锚点 - 语言符号通过递归组合,给视觉意象提供因果链和叙事结构
如果你剥夺系统的视觉空间画板,语言仍然可以工作——但它失去了"场景想象",退化成列表式陈述。如果你冻结语音回路,视觉意象仍然可以被感知——但无法生成时间序列和推理链。
因此,结构化模式的基础部分依赖视觉回路提供的"同步平行语义场"。没有多模态脚手架,语言的结构骨架仍然存在,但血肉会枯萎。
最终总结
语言和视觉共同构成人类大脑的基础系统。这篇对两个基础系统的简要概述说明了为什么视觉和语言对 VLA 都是不可或缺。我们希望这个视角能为你的工作提供一些有用指导。
灵感来源于 bobin 的知乎原文
Comments (0)
Please sign in to leave a comment.