AgiBotWorld2026 + Genie Sim 3.0:智元开源具身智能基础设施

AgiBotWorld2026 + Genie Sim 3.0:智元开源具身智能基础设施

关键词:具身智能, 仿真平台, 数据集, 开源

AgiBotWorld2026:真实世界具身智能数据集

AgiBotWorld2026是智元机器人同步发布的100%真实机器人采集的具身智能数据集,使用G2双臂机器人平台在商用/家居场景收集,配套GenieSim仿真数据,遵循LeRobot标准格式,为训练下一代具身智能体提供真实世界数据基础。

数据集信息

  • 名称:AgiBotWorld2026
  • 机构:智元机器人(AgiBot World Team)
  • 发布时间:2026年4月
  • 地址huggingface.co/datasets/agibot-world/AgiBotWorld2026
  • 关联项目:与GenieSim仿真平台配套
  • 许可证:CC BY-NC-SA 4.0(非商业共享相同方式)

核心特性

数据采集

  • 采集平台:智元AGIBOT G2双臂机器人平台
  • 采集环境:100%真实世界,覆盖商用场景、家居场景等通用场景
  • 配套数据:GenieSim项目提供并发的仿真数据,可结合使用

数据格式与结构

数据集遵循LeRobot v2.1标准格式,这是当前机器人学习社区流行的开源格式:

AgiBotWorld2026/
├── meta/              # 元数据与标注
│   └── info.json      # 包含三层标注
├── data/              # 数据文件(Parquet格式)
└── videos/            # MP4相机视频流

三层标注体系

数据集在meta/info.json中提供了三层标注:

层级 标注内容
1. Task Frame 子任务指令(subtask instructions)
2. 2D Bounding Box 物体检测标注
3. Instruction Segments 步骤级标签(step-level labels)

传感器配置

常见相机视角包括: - top_head:头部顶部RGB相机 - hand_left / hand_right:左右手腕相机 - head_depth:头部深度相机 - head_left_fisheye / head_right_fisheye:左右鱼眼相机

多视角配置支持研究空间感知、三维重建等任务。

使用方式

两种使用模式

模式 说明 适用场景
Original 保持原始分层结构 层次化任务研究
Split 转换为标准LeRobot格式 即插即用,通过split_episode.py脚本转换

环境依赖

  • Python 3.10+
  • PyTorch 2.2+
  • LeRobot 库

下载方式

git lfs install
git clone https://huggingface.co/datasets/agibot-world/AgiBotWorld2026

统计信息

  • 规模:1K < 回合数(episodes)< 10K
  • 模态:图像 + 文本
  • 语言:任务指令为英文
  • 标签:机器人、模仿学习、具身智能、LeRobot、真实世界、双臂操作

完整配套数据集包含超过10000小时交互记录,涵盖200个代表性任务。

任务分类设计

数据集任务设计按三个维度分层:

维度 内容举例
操作技能 抓、放、推、拉、开、关等基础动作
认知理解 空间大小、颜色属性、常识推理
任务复杂度 从简单单臂扔垃圾 → 复杂双臂协同清理桌面

亮点与意义

亮点: - 真实世界采集,不是纯仿真,对验证Sim2Real迁移有重要价值 - 遵循社区标准LeRobot格式,易上手,可直接用于现有主流训练流程 - 三层丰富标注(任务框、物体框、步骤切分),支持多种学习范式 - 多传感器配置(RGB+深度+鱼眼),支持不同环境感知方案研究 - 完全开放,CC BY-NC-SA许可证允许非商业自由使用和衍生


Genie Sim 3.0:用语言"造世界"——一站式具身智能仿真开发平台

智元机器人在2026年4月发布了Genie Sim 3.0,这是一个一站式具身智能仿真开发平台,通过大模型语言生成3D世界、五维度基准评测、强化学习闭环训练三大核心模块,试图解决具身智能训练"慢、贵、难"的问题,让具身智能的数据飞轮真正转起来。

背景与动机

当前具身智能领域普遍认为数据是最大瓶颈。但随着EgoCenter、UMI等工作出现,数据规模扩大(scale up)已经逐渐可行。Pete Florence也发文称"机器人数据不足已经不是当下的约束条件"。

然而,数据问题解决后,还有两个关键问题待解: 1. 如何规模化评测:传统方法用几台真机做控制变量实验,一遍遍重置环境,耗时耗力 2. 如何高效后训练:找到比现有方法更高效的路径提升成功率、完成向真实世界的迁移

核心架构:一个平台,三把钥匙

Genie Sim 3.0本次升级聚焦三个核心模块,目标都是同一问题:如何让具身智能训练从"慢、贵、难"变成"快、廉、易"

模块 核心能力
Genie Sim World 用自然语言生成3D世界
Genie Sim Benchmark 五大维度评测机器人算法
Genie Sim x RLinf 强化学习打通训练闭环

1. Genie Sim World:语言生成3D世界,范式转移

传统仿真环境搭建流程:3D建模师建模 → 工程师配置物理参数 → 测试人员验证场景,耗时从几天到几周不等。

Genie Sim的革新:输入文字描述或图片,大模型理解意图,空间世界模型单次推理完成构建。 - 生成速度:从小时级压缩到分钟级 - 范式变化:场景从"搭"出来变成"说"出来,任意描述都能生成新世界 - 关键特性虚实一致性——RGB、深度、激光雷达数据全部原生同步输出,仿真训练的模型拿到真实世界,传感器数据分布是对齐的

技术流程(五步生成): 1. 全景RGB输入:支持真实采集或文本/图像生成的360°全景图作为输入 2. 全景深度估计:全局深度预测,保障场景整体结构一致性 3. 局部单目深度估计:拆分全景图为局部图像,补充局部细节深度 4. 对齐与融合:融合全局全景深度和局部单目深度,得到兼具全局一致与局部细节的深度图 5. 3D高斯参数预测与场景生成:基于融合深度预测3D高斯参数,输出可实时渲染、支持漫游的3D高斯场景

这个方案用3D高斯重建(3D Gaussian Splatting)作为场景表示,保证了渲染质量和速度。

2. Genie Sim Benchmark:五个维度评测,不止看任务成功率

传统评测只看任务成功率一个指标,但机器人能力是多维的。Genie Sim设计了五大评测维度

  1. Instruction 指令跟随:检验模型对形状、颜色、逻辑等自然语言指令的理解,衡量语言与行为的对齐程度

  2. Spatial 空间理解:通过抓取、排序、叠放等任务,评估机器人在几何与语义交织场景中的空间智能

  3. Manip 操作执行:衡量多场景下的原子操作技能,通过分层难度设计,检验长程任务中组合运用技能的执行水平

  4. Robust 扰动适应:光照变化、背景替换、相机噪声、末端切换等十余类真实工况扰动,系统评估模型鲁棒性边界

  5. Sim2Real 训以致用这是最关键的维度——纯仿真数据训练的模型直接部署到真实机器人,验证跨域迁移能力。仿真训练的终极目标是真实世界能用,不是仿真中好看

关键实验结论: - 当仿真数据量增加到1500次时,模型在真实世界中的Zero-shot成功率超越所有对比组,达到最高水平 - 实验证明:模型在仿真器里的表现与在真实世界中的表现呈现极强正相关性 - 这意味着研发人员可以放心在仿真中评估模型性能,省去大量真机调试时间

3. Genie Sim x RLinf:强化学习打通VLA最后一公里

当前主流VLA(Visual-Language-Action,视觉-语言-动作)路线优势是泛化能力强,能理解复杂指令、处理多样化场景。但短板是精准微操——毫米级精度任务(拧螺丝、插零件)往往力不从心。

解决方案:用强化学习(RL)后训练微调VLA模型,低成本打通从泛化理解到精准微操的最后一公里。

技术特点: - 物理引擎和渲染引擎解耦,实现1000Hz高精度物理模拟,同时保持高保真视觉观测 - 大规模并行计算,提升采样效率,加速模型收敛 - 评测闭环:RL训练过程中,Genie Sim评测框架实时提供奖励信号,驱动模型迭代。训练和评测不再分离,形成持续迭代飞轮 - 标准Gym API接口,无缝适配RLinf及社区其他算法环境

本质:让数据飞轮真正转起来

文章作者认为,具身智能需要和AlphaGo一样的逻辑:在虚拟世界中高速迭代。真实世界采集太慢,训练量需求远超现实能提供的,唯一出路是仿真世界。

Genie Sim 3.0系统性解决仿真的老问题(Sim2Real鸿沟): - 虚实一致的多模态数据缩小鸿沟 - 五维度Sim2Real评测保证迁移有效性 - 强化学习精准微调补全VLA短板

当场景生成成本趋近于零,当Sim2Real迁移成功率趋近于100%,具身智能的数据飞轮就能真正转起来。那时机器人进化速度将不再受限于现实世界的数据采集效率。

开源价值:基础设施先行

Genie Sim 3.0完全开源,包括: - 代码全部开放 - 5140个仿真资产 - 超过10000小时的合成数据集 - 10万个评估场景

数据集设计:按三个维度分层 - 操作技能:抓、放、推、拉、开、关等基础动作 - 认知理解:考验空间大小、颜色属性、常识推理 - 任务复杂度:从单臂扔垃圾(简单)→ 双臂协同清理桌面(复杂)

观点:具身智能现在最需要的是整个生态的基础设施,而不是某一家公司的护城河。就像互联网时代的Linux,AI时代的PyTorch。开源意味着: - 所有人都可以在同一套基础设施上构建工作 - 数据可以共享 - 评测可以对齐 - 方法可以复现 - 整个行业迭代速度因此加快


总结

Genie Sim 3.0 + AgiBotWorld2026 组合提供了完整的具身智能开发基础设施:

  1. Genie Sim World 用语言生成3D场景,大幅降低场景创建成本
  2. Genie Sim Benchmark 提供五维度评测,尤其关注Sim2Real迁移
  3. Genie Sim x RLinf 用强化学习打通VLA微调最后一公里
  4. AgiBotWorld2026 提供大规模真实世界标定数据

二者配合,让具身智能的数据飞轮能够真正转起来:仿真快速迭代产生海量数据,真实数据验证迁移效果,评测驱动模型持续改进。

智元选择完全开源这套基础设施,体现了"具身智能现在最需要生态共建"的判断。这将会加速整个领域的研发迭代速度。


链接


来源:基于智元机器人公众号文章整理,数据集信息来自Hugging Face官方页面。


代码分析:Genie Sim 仓库结构与核心实现

本文基于 GitHub 仓库 https://github.com/AgibotTech/genie_sim 代码分析。

📦 项目结构

source/
├── geniesim/              # 主仿真框架(基于 Isaac Sim 5.1.0)
├── geniesim_world/         # 多模态空间世界模型(本文重点)
   ├── src/geniesim_world/
      ├── cli_pano.py      # CLI 入口:create / debug
      ├── cli_debug.py     # 调试命令
      ├── predictor.py     # DepthGuidedRGBGaussianPredictor 核心类
      ├── predict_run.py   # 单张图片预测流程
      ├── gaussian_ops.py  # 高斯操作(裁剪、掩码)
      └── utils/           # 立方体投影、DA360深度、融合
   ├── setup.py
   └── pyproject.toml
├── data_collection/        # 自动数据采集流水线
├── teleop/                 # 遥操作数据采集(G2 机器人支持)
├── scene_reconstruction/   # 3DGS 重建转 USD
└── setup.py                # 顶层安装脚本

⚙️ 环境依赖

  • Python:3.11+
  • PyTorch:2.8.0 + CUDA 12.8(测试于 RTX 5090 32GB)
  • 关键Python包click, einops, numpy, opencv-python-headless, pillow, scipy, torch, torchvision, xformers, tqdm
  • 第三方依赖需手动克隆apple/ml-sharp, DepthAnything/DA360external/ 目录

🧠 核心算法逻辑

Genie Sim World 从全景图生成 3D 高斯场景的完整数据流:

Equirectangular RGB全景图
    ↓
[可选] Real-ESRGAN 4× 超采样放大
    ↓
深度估计(可选择四种模式):
  • da360: 只使用 DA360 预测深度
  • sharp: 只使用 SHARP 预测深度
  • both: DA360 + SHARP 都运行,保存差异
  • fuse: 拉普拉斯金字塔融合两个深度预测
    ↓
等距柱状投影 → 展开为 6 张立方体贴图
  每个面包含:RGB + 深度 + 内参 + 外参
    ↓
对每个立方体面依次处理:
  ← RGB图像 + 深度图 + 相机内外参
  ↓
  鲁棒深度裁剪 → 百分位抑制离群值
  ↓
  DepthGuidedRGBGaussianPredictor
  → 使用外部深度指导高斯初始化
  → 预测 3D 高斯参数(位置、颜色、方差)
  ↓
  NDC 视锥体掩码 → 移除无效高斯
  ↓  锥体裁剪 → 移除跨面泄漏
  ↓  远距离高斯对数压缩 → 缓解漂移
  ↓
  保存 PLY 和深度图
    ↓
合并六个面的高斯 → 输出完整场景 merged_gaussians.ply

关键创新点代码实现

1. DepthGuidedRGBGaussianPredictor (predictor.py)

继承 Apple SHARP 的 RGBGaussianPredictor,新增深度引导初始化:

# 如果提供了 depth_gt 并且启用深度引导,直接用 depth_gt 初始化高斯
if use_depth_gt_for_init and depth_gt is not None:
    # ... DA360 深度对齐
    monodepth = torch.cat([depth_gt, depth_gt], dim=1)  # 使用 GT 深度直接初始化

init_output = self.init_model(image, monodepth)

优势:外部深度(DA360)提供更好的全局几何结构,SHARP 负责优化颜色和细节。

2. 鲁棒深度处理 (predict_run.py)

# 百分位裁剪抑制离群值
p50, p_hi = np.percentile(depth[valid_np], [50, _ROBUST_CLIP_PERCENTILE])
clip_hi = min(float(depth_max), max(p_hi * _ROBUST_CLIP_EXPAND, p50 * 3.0))
depth = np.where(valid_np, np.clip(depth, 0.0, clip_hi), depth)

解决问题:深度离群值会导致 SHARP 深度对齐塌缩到近平面。

3. 远距离高斯对数压缩 (predict_run.py)

# |xyz| > thr 时,对数压缩:r' = thr * log1p(r/thr) / log(2)
scale = ...  # 保持长度不变的情况下压缩
gaussians = gaussians._replace(
    mean_vectors=xyz * scale,
    singular_values=gaussians.singular_values * scale1,
)

优点:不硬截断,避免远距离高斯突然消失,保持场景完整性同时减少漂移。

📊 官方基准测试结果

Benchmark 指标 π₀.₅ (本文) GR00T-N1.6 π₀
GenieSim-Instruction 平均π₀.₅ 0.646 0.409 0.268
GenieSim-Robust 平均π₀.₅ 0.785 0.460 0.342
GenieSim-Manipulation 平均π₀.₅ 0.571 0.374 0.359

Sim2Real 零样本迁移:

设置 平均成功率
纯仿真数据 → 真实环境 82.8%
真实数据 → 真实环境 75.2%

关键结论:仿真与真实性能差异 < 10%,仿真评估可以很好地预测真实性能。

💡 工程亮点

  1. 模块化设计geniesim_world 完全独立,不依赖 Isaac Sim,可以单独安装使用
  2. 增量改进:基于 Apple SHARP,只添加深度引导能力,不修改核心
  3. 稳健性设计:多处自动回退机制(低有效像素 → 回退到纯 monodepth)
  4. 可调试性:完整的 debug 命令输出深度对比可视化
  5. 配置灵活:支持多种深度引擎、多种融合方式,可根据场景选择

安装使用命令

# 克隆
git clone https://github.com/AgibotTech/genie_sim.git
cd genie_sim

# 克隆第三方依赖到 external
cd source/geniesim_world/external
git clone https://github.com/apple/ml-sharp.git
git clone https://github.com/DepthAnything/DA360.git

# 安装
conda create -n geniesim_world python=3.11 -y
conda activate geniesim_world
pip install --extra-index-url https://download.pytorch.org/whl/cu128 -r requirements-cu128.txt
pip install -e .

# 使用:从全景图生成 3D 高斯场景
geniesim_world create -p <input-pano>.png -o .

代码分析基于 GitHub 主分支 commit,分析完成于临时目录 /tmp/genie_sim

Comments (0)