AgiBotWorld2026 + Genie Sim 3.0：智元开源具身智能基础设施

关键词：具身智能, 仿真平台, 数据集, 开源

AgiBotWorld2026：真实世界具身智能数据集

AgiBotWorld2026是智元机器人同步发布的100%真实机器人采集的具身智能数据集，使用G2双臂机器人平台在商用/家居场景收集，配套GenieSim仿真数据，遵循LeRobot标准格式，为训练下一代具身智能体提供真实世界数据基础。

数据集信息

名称：AgiBotWorld2026
机构：智元机器人（AgiBot World Team）
发布时间：2026年4月
地址：huggingface.co/datasets/agibot-world/AgiBotWorld2026
关联项目：与GenieSim仿真平台配套
许可证：CC BY-NC-SA 4.0（非商业共享相同方式）

核心特性

数据采集

采集平台：智元AGIBOT G2双臂机器人平台
采集环境：100%真实世界，覆盖商用场景、家居场景等通用场景
配套数据：GenieSim项目提供并发的仿真数据，可结合使用

数据格式与结构

数据集遵循LeRobot v2.1标准格式，这是当前机器人学习社区流行的开源格式：

AgiBotWorld2026/
├── meta/              # 元数据与标注
│   └── info.json      # 包含三层标注
├── data/              # 数据文件（Parquet格式）
└── videos/            # MP4相机视频流

三层标注体系

数据集在meta/info.json中提供了三层标注：

层级	标注内容
1. Task Frame	子任务指令（subtask instructions）
2. 2D Bounding Box	物体检测标注
3. Instruction Segments	步骤级标签（step-level labels）

传感器配置

常见相机视角包括： - top_head：头部顶部RGB相机 - hand_left / hand_right：左右手腕相机 - head_depth：头部深度相机 - head_left_fisheye / head_right_fisheye：左右鱼眼相机

多视角配置支持研究空间感知、三维重建等任务。

使用方式

两种使用模式

模式	说明	适用场景
Original	保持原始分层结构	层次化任务研究
Split	转换为标准LeRobot格式	即插即用，通过`split_episode.py`脚本转换

环境依赖

Python 3.10+
PyTorch 2.2+
LeRobot 库

下载方式

git lfs install
git clone https://huggingface.co/datasets/agibot-world/AgiBotWorld2026

统计信息

规模：1K < 回合数（episodes）< 10K
模态：图像 + 文本
语言：任务指令为英文
标签：机器人、模仿学习、具身智能、LeRobot、真实世界、双臂操作

完整配套数据集包含超过10000小时交互记录，涵盖200个代表性任务。

任务分类设计

数据集任务设计按三个维度分层：

维度	内容举例
操作技能	抓、放、推、拉、开、关等基础动作
认知理解	空间大小、颜色属性、常识推理
任务复杂度	从简单单臂扔垃圾 → 复杂双臂协同清理桌面

亮点与意义

亮点： - 真实世界采集，不是纯仿真，对验证Sim2Real迁移有重要价值 - 遵循社区标准LeRobot格式，易上手，可直接用于现有主流训练流程 - 三层丰富标注（任务框、物体框、步骤切分），支持多种学习范式 - 多传感器配置（RGB+深度+鱼眼），支持不同环境感知方案研究 - 完全开放，CC BY-NC-SA许可证允许非商业自由使用和衍生

Genie Sim 3.0：用语言"造世界"——一站式具身智能仿真开发平台

智元机器人在2026年4月发布了Genie Sim 3.0，这是一个一站式具身智能仿真开发平台，通过大模型语言生成3D世界、五维度基准评测、强化学习闭环训练三大核心模块，试图解决具身智能训练"慢、贵、难"的问题，让具身智能的数据飞轮真正转起来。

背景与动机

当前具身智能领域普遍认为数据是最大瓶颈。但随着EgoCenter、UMI等工作出现，数据规模扩大（scale up）已经逐渐可行。Pete Florence也发文称"机器人数据不足已经不是当下的约束条件"。

然而，数据问题解决后，还有两个关键问题待解： 1. 如何规模化评测：传统方法用几台真机做控制变量实验，一遍遍重置环境，耗时耗力 2. 如何高效后训练：找到比现有方法更高效的路径提升成功率、完成向真实世界的迁移

核心架构：一个平台，三把钥匙

Genie Sim 3.0本次升级聚焦三个核心模块，目标都是同一问题：如何让具身智能训练从"慢、贵、难"变成"快、廉、易"：

模块	核心能力
Genie Sim World	用自然语言生成3D世界
Genie Sim Benchmark	五大维度评测机器人算法
Genie Sim x RLinf	强化学习打通训练闭环

1. Genie Sim World：语言生成3D世界，范式转移

传统仿真环境搭建流程：3D建模师建模 → 工程师配置物理参数 → 测试人员验证场景，耗时从几天到几周不等。

Genie Sim的革新：输入文字描述或图片，大模型理解意图，空间世界模型单次推理完成构建。 - 生成速度：从小时级压缩到分钟级 - 范式变化：场景从"搭"出来变成"说"出来，任意描述都能生成新世界 - 关键特性：虚实一致性——RGB、深度、激光雷达数据全部原生同步输出，仿真训练的模型拿到真实世界，传感器数据分布是对齐的

技术流程（五步生成）： 1. 全景RGB输入：支持真实采集或文本/图像生成的360°全景图作为输入 2. 全景深度估计：全局深度预测，保障场景整体结构一致性 3. 局部单目深度估计：拆分全景图为局部图像，补充局部细节深度 4. 对齐与融合：融合全局全景深度和局部单目深度，得到兼具全局一致与局部细节的深度图 5. 3D高斯参数预测与场景生成：基于融合深度预测3D高斯参数，输出可实时渲染、支持漫游的3D高斯场景

这个方案用3D高斯重建（3D Gaussian Splatting）作为场景表示，保证了渲染质量和速度。

2. Genie Sim Benchmark：五个维度评测，不止看任务成功率

传统评测只看任务成功率一个指标，但机器人能力是多维的。Genie Sim设计了五大评测维度：

Instruction 指令跟随：检验模型对形状、颜色、逻辑等自然语言指令的理解，衡量语言与行为的对齐程度
Spatial 空间理解：通过抓取、排序、叠放等任务，评估机器人在几何与语义交织场景中的空间智能
Manip 操作执行：衡量多场景下的原子操作技能，通过分层难度设计，检验长程任务中组合运用技能的执行水平
Robust 扰动适应：光照变化、背景替换、相机噪声、末端切换等十余类真实工况扰动，系统评估模型鲁棒性边界
Sim2Real 训以致用：这是最关键的维度——纯仿真数据训练的模型直接部署到真实机器人，验证跨域迁移能力。仿真训练的终极目标是真实世界能用，不是仿真中好看

关键实验结论： - 当仿真数据量增加到1500次时，模型在真实世界中的Zero-shot成功率超越所有对比组，达到最高水平 - 实验证明：模型在仿真器里的表现与在真实世界中的表现呈现极强正相关性 - 这意味着研发人员可以放心在仿真中评估模型性能，省去大量真机调试时间

3. Genie Sim x RLinf：强化学习打通VLA最后一公里

当前主流VLA（Visual-Language-Action，视觉-语言-动作）路线优势是泛化能力强，能理解复杂指令、处理多样化场景。但短板是精准微操——毫米级精度任务（拧螺丝、插零件）往往力不从心。

解决方案：用强化学习（RL）后训练微调VLA模型，低成本打通从泛化理解到精准微操的最后一公里。

技术特点： - 物理引擎和渲染引擎解耦，实现1000Hz高精度物理模拟，同时保持高保真视觉观测 - 大规模并行计算，提升采样效率，加速模型收敛 - 评测闭环：RL训练过程中，Genie Sim评测框架实时提供奖励信号，驱动模型迭代。训练和评测不再分离，形成持续迭代飞轮 - 标准Gym API接口，无缝适配RLinf及社区其他算法环境

本质：让数据飞轮真正转起来

文章作者认为，具身智能需要和AlphaGo一样的逻辑：在虚拟世界中高速迭代。真实世界采集太慢，训练量需求远超现实能提供的，唯一出路是仿真世界。

Genie Sim 3.0系统性解决仿真的老问题（Sim2Real鸿沟）： - 虚实一致的多模态数据缩小鸿沟 - 五维度Sim2Real评测保证迁移有效性 - 强化学习精准微调补全VLA短板

当场景生成成本趋近于零，当Sim2Real迁移成功率趋近于100%，具身智能的数据飞轮就能真正转起来。那时机器人进化速度将不再受限于现实世界的数据采集效率。

开源价值：基础设施先行

Genie Sim 3.0完全开源，包括： - 代码全部开放 - 5140个仿真资产 - 超过10000小时的合成数据集 - 10万个评估场景

数据集设计：按三个维度分层 - 操作技能：抓、放、推、拉、开、关等基础动作 - 认知理解：考验空间大小、颜色属性、常识推理 - 任务复杂度：从单臂扔垃圾（简单）→ 双臂协同清理桌面（复杂）

观点：具身智能现在最需要的是整个生态的基础设施，而不是某一家公司的护城河。就像互联网时代的Linux，AI时代的PyTorch。开源意味着： - 所有人都可以在同一套基础设施上构建工作 - 数据可以共享 - 评测可以对齐 - 方法可以复现 - 整个行业迭代速度因此加快

总结

Genie Sim 3.0 + AgiBotWorld2026 组合提供了完整的具身智能开发基础设施：

Genie Sim World 用语言生成3D场景，大幅降低场景创建成本
Genie Sim Benchmark 提供五维度评测，尤其关注Sim2Real迁移
Genie Sim x RLinf 用强化学习打通VLA微调最后一公里
AgiBotWorld2026 提供大规模真实世界标定数据

二者配合，让具身智能的数据飞轮能够真正转起来：仿真快速迭代产生海量数据，真实数据验证迁移效果，评测驱动模型持续改进。

智元选择完全开源这套基础设施，体现了"具身智能现在最需要生态共建"的判断。这将会加速整个领域的研发迭代速度。

链接

项目官网：https://agibot-world.com/genie-sim
GitHub代码：https://github.com/AgibotTech/genie_sim
Hugging Face数据集：https://huggingface.co/datasets/agibot-world/AgiBotWorld2026
ModelScope数据集（GenieSim3.0）：https://modelscope.cn/datasets/agibot_world/GenieSim3.0-Dataset

来源：基于智元机器人公众号文章整理，数据集信息来自Hugging Face官方页面。

代码分析：Genie Sim 仓库结构与核心实现

本文基于 GitHub 仓库 https://github.com/AgibotTech/genie_sim 代码分析。

📦 项目结构

source/
├── geniesim/              # 主仿真框架（基于 Isaac Sim 5.1.0）
├── geniesim_world/         # 多模态空间世界模型（本文重点）
│   ├── src/geniesim_world/
│   │   ├── cli_pano.py      # CLI 入口：create / debug
│   │   ├── cli_debug.py     # 调试命令
│   │   ├── predictor.py     # DepthGuidedRGBGaussianPredictor 核心类
│   │   ├── predict_run.py   # 单张图片预测流程
│   │   ├── gaussian_ops.py  # 高斯操作（裁剪、掩码）
│   │   └── utils/           # 立方体投影、DA360深度、融合
│   ├── setup.py
│   └── pyproject.toml
├── data_collection/        # 自动数据采集流水线
├── teleop/                 # 遥操作数据采集（G2 机器人支持）
├── scene_reconstruction/   # 3DGS 重建转 USD
└── setup.py                # 顶层安装脚本

⚙️ 环境依赖

Python：3.11+
PyTorch：2.8.0 + CUDA 12.8（测试于 RTX 5090 32GB）
关键Python包：click, einops, numpy, opencv-python-headless, pillow, scipy, torch, torchvision, xformers, tqdm
第三方依赖需手动克隆：apple/ml-sharp, DepthAnything/DA360 到 external/ 目录

🧠 核心算法逻辑

Genie Sim World 从全景图生成 3D 高斯场景的完整数据流：

Equirectangular RGB全景图
    ↓
[可选] Real-ESRGAN 4× 超采样放大
    ↓
深度估计（可选择四种模式）：
  • da360: 只使用 DA360 预测深度
  • sharp: 只使用 SHARP 预测深度
  • both: DA360 + SHARP 都运行，保存差异
  • fuse: 拉普拉斯金字塔融合两个深度预测
    ↓
等距柱状投影 → 展开为 6 张立方体贴图
  每个面包含：RGB + 深度 + 内参 + 外参
    ↓
对每个立方体面依次处理：
  ← RGB图像 + 深度图 + 相机内外参
  ↓
  鲁棒深度裁剪 → 百分位抑制离群值
  ↓
  DepthGuidedRGBGaussianPredictor
  → 使用外部深度指导高斯初始化
  → 预测 3D 高斯参数（位置、颜色、方差）
  ↓
  NDC 视锥体掩码 → 移除无效高斯
  ↓  锥体裁剪 → 移除跨面泄漏
  ↓  远距离高斯对数压缩 → 缓解漂移
  ↓
  保存 PLY 和深度图
    ↓
合并六个面的高斯 → 输出完整场景 merged_gaussians.ply

关键创新点代码实现

1. DepthGuidedRGBGaussianPredictor (predictor.py)

继承 Apple SHARP 的 RGBGaussianPredictor，新增深度引导初始化：

# 如果提供了 depth_gt 并且启用深度引导，直接用 depth_gt 初始化高斯
if use_depth_gt_for_init and depth_gt is not None:
    # ... DA360 深度对齐
    monodepth = torch.cat([depth_gt, depth_gt], dim=1)  # 使用 GT 深度直接初始化

init_output = self.init_model(image, monodepth)

优势：外部深度（DA360）提供更好的全局几何结构，SHARP 负责优化颜色和细节。

2. 鲁棒深度处理 (predict_run.py)

# 百分位裁剪抑制离群值
p50, p_hi = np.percentile(depth[valid_np], [50, _ROBUST_CLIP_PERCENTILE])
clip_hi = min(float(depth_max), max(p_hi * _ROBUST_CLIP_EXPAND, p50 * 3.0))
depth = np.where(valid_np, np.clip(depth, 0.0, clip_hi), depth)

解决问题：深度离群值会导致 SHARP 深度对齐塌缩到近平面。

3. 远距离高斯对数压缩 (predict_run.py)

# |xyz| > thr 时，对数压缩：r' = thr * log1p(r/thr) / log(2)
scale = ...  # 保持长度不变的情况下压缩
gaussians = gaussians._replace(
    mean_vectors=xyz * scale,
    singular_values=gaussians.singular_values * scale1,
)

优点：不硬截断，避免远距离高斯突然消失，保持场景完整性同时减少漂移。

📊 官方基准测试结果

Benchmark	指标	π₀.₅ (本文)	GR00T-N1.6	π₀
GenieSim-Instruction	平均π₀.₅	0.646	0.409	0.268
GenieSim-Robust	平均π₀.₅	0.785	0.460	0.342
GenieSim-Manipulation	平均π₀.₅	0.571	0.374	0.359

Sim2Real 零样本迁移：

设置	平均成功率
纯仿真数据 → 真实环境	82.8%
真实数据 → 真实环境	75.2%

关键结论：仿真与真实性能差异 < 10%，仿真评估可以很好地预测真实性能。

💡 工程亮点

模块化设计：geniesim_world 完全独立，不依赖 Isaac Sim，可以单独安装使用
增量改进：基于 Apple SHARP，只添加深度引导能力，不修改核心
稳健性设计：多处自动回退机制（低有效像素 → 回退到纯 monodepth）
可调试性：完整的 debug 命令输出深度对比可视化
配置灵活：支持多种深度引擎、多种融合方式，可根据场景选择

安装使用命令

# 克隆
git clone https://github.com/AgibotTech/genie_sim.git
cd genie_sim

# 克隆第三方依赖到 external
cd source/geniesim_world/external
git clone https://github.com/apple/ml-sharp.git
git clone https://github.com/DepthAnything/DA360.git

# 安装
conda create -n geniesim_world python=3.11 -y
conda activate geniesim_world
pip install --extra-index-url https://download.pytorch.org/whl/cu128 -r requirements-cu128.txt
pip install -e .

# 使用：从全景图生成 3D 高斯场景
geniesim_world create -p <input-pano>.png -o .

代码分析基于 GitHub 主分支 commit，分析完成于临时目录 /tmp/genie_sim。

AgiBotWorld2026 + Genie Sim 3.0：智元开源具身智能基础设施

AgiBotWorld2026 + Genie Sim 3.0：智元开源具身智能基础设施

AgiBotWorld2026：真实世界具身智能数据集

数据集信息

核心特性

数据采集

数据格式与结构

三层标注体系

传感器配置

使用方式

两种使用模式

环境依赖

下载方式

统计信息

任务分类设计

亮点与意义

Genie Sim 3.0：用语言"造世界"——一站式具身智能仿真开发平台

背景与动机

核心架构：一个平台，三把钥匙

1. Genie Sim World：语言生成3D世界，范式转移

2. Genie Sim Benchmark：五个维度评测，不止看任务成功率

3. Genie Sim x RLinf：强化学习打通VLA最后一公里

本质：让数据飞轮真正转起来

开源价值：基础设施先行

总结

链接

代码分析：Genie Sim 仓库结构与核心实现

📦 项目结构

⚙️ 环境依赖

🧠 核心算法逻辑

关键创新点代码实现

📊 官方基准测试结果

💡 工程亮点

安装使用命令

Comments (0)