具身智能公司:本体-小脑路线 vs 大脑优先路线

具身智能公司:本体-小脑路线 vs 大脑优先路线


一、先定义"两条路"在工程上的含义

本体-小脑优先 大脑优先
起点 先把身体搞对——运动控制、传感、力矩、平衡 先把"大脑"搞对——VLA/LLM 驱动行为,身体是载体
核心信念 没有稳定的小脑,大脑指令是空中楼阁 通用模型能泛化,硬件细节是工程问题
技术标志 强化学习运动控制、仿生机构设计、低级控制优先 端到端 Vision-Language-Action 模型、Foundation Model 驱动
类比 先学走路再学说话的婴儿 先建知识再适配肢体的"上载大脑"

二、本体-小脑优先阵营

🔵 Boston Dynamics(Atlas)

Boston Dynamics 的哲学核心是动态平衡、敏捷运动与复杂地形适应,其设计哲学优先考虑功能与运动效率,而非严格模仿人体生物力学。三十年来,他们先把"怎么不摔倒"做到极致,再逐步叠加AI层。2025年CES展示的全电动Atlas被普遍认为是当届最先进的人形机器人演示,目前已与谷歌DeepMind和丰田研究院合作,叠加Gemini Robotics模型。

典型路径: 液压→电动→运动控制成熟后才开始对接大模型,是"小脑优先、大脑后装"的最典型代表。


🔵 Agility Robotics(Digit)

Agility Robotics 联合创始人 Jonathan Hurst 是俄勒冈州立大学的腿式运动学教授,其研究专注于双足步行的物理原理。Digit 的独特之处在于它是为物流场景从步行机构倒推设计的——先定义"双足搬运"这个物理问题,再配套感知和决策。Agility Robotics 目前是商业化部署机器人数量最多的人形机器人公司。

典型路径: 学术运动学研究 → 双足行走本体 → Amazon仓库落地。


🔵 宇树科技(Unitree,G1/H1)

宇树科技目前主要通过强化学习训练机器人掌握运动控制能力,尤其是复杂地形上的适应与运动能力。宇树CEO王兴兴认为,机器人通用AI大模型在全球范围内尚未突破临界点,这是当前行业的一大限制。宇树的策略是以硬件本体研发为基础,AI模型研发为辅助,与各类大模型公司合作,而非自己全栈做大脑。

在2026年春晚,宇树人形机器人带来了武术表演,与人类演员"人机共武",展现了当下运动控制和动作训练的最高水准;在CES 2026上宇树也继续走"表演秀"路线,展示机器人搏斗竞技。

典型路径: 四足机器狗起家 → 低成本高性能本体 → 运动控制全球领先(H1移动速度创世界纪录)→ 大模型外部接入。


🔵 傅利叶智能(Fourier Intelligence)

傅利叶的机器人专注于康复与运动辅助领域。从医疗外骨骼起家,深刻理解人体力学与本体感受的交互,是最接近"神经-肌肉系统建模"思路的玩家之一。其路线是:先把人体运动模型做透,再扩展至通用人形。


三、大脑优先阵营

🔴 Physical Intelligence / π.ai

Physical Intelligence(Pi)采取了一种不同的策略:不自己造机器人,而是开发可以控制任何机器人硬件的基础模型——类似于GPT-4跨应用运行的方式。其π0模型使用流匹配架构,直接从视觉观察输出机器人动作,经过多种机器人类型数据的训练后,可以泛化到从未见过的任务,包括叠衣服和组装箱子等复杂操作。

π0.5于2025年5月发布,展示了在完全未知环境中的开放世界泛化能力。其核心团队来自谷歌DeepMind和伯克利,联合创始人包括强化学习先驱Sergey Levine和元学习研究者Chelsea Finn。

典型路径: 不造身体,只做"机器人的GPT"——这是最纯粹的大脑优先逻辑。


🔴 Figure AI(Figure 02 + Helix)

Figure AI推出了自研的Helix AI模型,这是一个双系统的视觉-语言-行动(VLA)模型:一个系统负责慢速思考,处理视觉和语言;另一个系统负责快速运动控制,处理手臂和躯干的实时运动。Figure声称其Figure 03将比原计划提前两年进行家庭测试。

Figure的Helix基础模型完全运行在机载NVIDIA GPU上,处理多模态输入并实时生成电机指令。

典型路径: AI company logic builds robots, with proprietary foundation models as the core competitive moat, where the body is the output terminal of the model capacity.


🔴 Sanctuary AI(Phoenix + Carbon)

Sanctuary AI的Phoenix机器人专注于类人推理能力,基于自研的Carbon AI系统,可以折叠衣服、接受语言指令,目标是让机器人能像真正的同事一样观察、规划和应对现实环境。

典型路径: 从认知架构出发,先定义"机器人应该怎么思考",再映射到物理动作。是哲学意味最强的"大脑优先"公司。


🔴 银河通用(Galbot)

银河通用认为现阶段双足人形不一定是最优解,反而会徒增成本,因此采取应用场景导向策略,优先关注"双手"的落地场景。其技术架构采用大小模型协同的分层智能——用大模型做高层规划,用小模型做底层执行。这是典型的"大脑设计身体"逻辑。


四、全栈混合阵营(无法简单归类)

⚡ Tesla Optimus

特斯拉最近实现了让Optimus直接从人类操作的第一人称视角互联网视频中学习复杂任务,这意味着单一AI机器人大脑可以不经人工逐步教学就掌握大量技能。端到端模型的做法源于特斯拉自动驾驶的成功路径,直接从传感器输入到动作输出,绕过传统的"感知-决策-规划-执行"流水线。

特斯拉的独特性在于:它有海量真实世界的运动数据(FSD积累),让"大脑"天然就有"感知世界的身体经验"——某种意义上,自动驾驶本身就是一种巨大的本体训练集。


⚡ 智元机器人(AgiBot)

智元定义了G1至G5的具身智能技术演进路线:G1针对特定场景;G2面向更多场景,具有泛化能力;G3从算法驱动转变为数据驱动;G4引入仿真数据和世界模型;G5则实现从感知到执行的高度自主性。目前智元处于G2到G3阶段。

智元是全栈自研(从关节电机到运动控制到大模型),路线图本身就是一个从"小脑"向"大脑"逐步迁移的清晰叙事。


五、核心矛盾总结

本体-小脑路线的天花板问题:
运动控制做得再好,泛化能力有限——
宇树的机器人打架很厉害,但不会"理解"任务

大脑优先路线的地基问题:
模型再聪明,身体跟不上——
π0可以"知道"怎么叠衣服,但执行抖动、力控失准

行业内对此有清晰的隐喻:机器人的"小脑"(运动控制)发育更快,但"大脑"受制于各种限制目前很难与"小脑"同步发育,这直接导致具身智能落地难的问题。

维度 本体-小脑路线代表 大脑优先路线代表
量产/落地 宇树、Agility(更快) Figure AI(BMW试点)
泛化能力 π.ai、Figure Helix 强
成本 宇树G1 ¥9.9万 Figure 02 数十万美元
压力下稳定性 ✅ 强 ❌ 模型推理有延迟
陌生场景适应 ❌ 差 ✅ VLA模型可泛化
投资人叙事 硬件护城河 软件飞轮/平台价值

最终判断: 当前周期里,小脑路线更快商业化,但大脑路线更接近终局。真正的赢家可能是像Tesla、智元这样——能把两者整合进统一数据飞轮的公司,而不是单押一边的玩家。

0 Comments