从评估到闭环改进：社区反馈如何让机器人更智能

核心问题：我们如何知道机器人真的有效？

当我们构建机器人或训练新模型时，我们面临一个根本问题：我们如何验证它在所有可能遇到的条件下都能安全可靠地工作？

在传统软件开发中，我们编写单元测试、集成测试和端到端测试。但机器人技术不同——我们的软件与物理世界交互，而物理世界具有无限可变性。在一个环境中完美工作的模型可能在另一个环境中完全失败。我们如何设计能捕捉这种复杂性的基准测试？

这个问题将我们引向两种主导的评估范式：开环评估和闭环评估。每种都有其优缺点，单独一种都不能提供完整解决方案。

开环评估：离线方法

工作原理

开环评估遵循一个简单的流程： 1. 记录真实机器人或人类遥操作在各种场景下的传感器数据（观测） 2. 重放这些记录的数据给你的模型 3. 评分使用各种指标将模型输出与专家演示对比

常见指标包括： - 模型输出与专家动作之间的均方误差（MSE） - 动作分布之间的 KL 散度 - 分类/指令跟随任务的成功率 - 各种相关性指标

为什么流行

开环评估很有吸引力，因为它简单——你只需要一个数据集和一个模型。你不需要实体机器人，不需要实时运行系统，你可以在多个 GPU 上并行评估。非常适合模型开发过程中的快速迭代。

根本问题

开环评估的问题就在名字里——它是开环的。因为评估不会将模型输出反馈回下一个观测，它忽略了真实控制系统的闭环动力学。

想想看：轨迹早期的一个小误差会随着时间累积，导致后来的灾难性失败。在开环评估中，这个误差永远不会累积——因为每一步都从真值观测开始。模型可能得到很好的分数，但当你真的在机器人上运行它时，它会发散并失败。

换句话说：好的开环性能不能保证好的闭环性能。它是真实世界能力的必要但不充分指标。

闭环评估：在线方法

工作原理

闭环评估通过闭合回路解决了这个问题： 1. 模型从环境接收观测 2. 模型输出动作 3. 环境（模拟器或真实机器人）根据该动作更新并产生新的观测 4. 重复直到任务完成或失败

模型完全控制——就像在部署中一样。这意味着误差可以累积，就像在现实中一样。成功或失败直接通过任务是否完成来衡量。

为什么更好（也更难）

闭环评估更真实，因为它实际上模拟（或执行）完整的控制循环。它衡量的是真正重要的——机器人能否从初始条件开始完成任务？

但这种现实性是有代价的： - 延迟挑战： 你不仅需要测量模型是否成功，还需要测量它能否在系统要求的实时约束内完成 - 仿真与现实： 如果你在仿真中评估，你必须应对sim2real 鸿沟——在仿真中工作的模型可能在硬件上失败，因为模拟器不能完美捕捉真实世界 - 可扩展性成本： 在真实硬件上评估缓慢且昂贵——你不能像开环评估那样在上千个 GPU 上并行化

现实世界问题：那未见场景呢？

开环和闭环评估都假设你有固定的测试场景集。但在现实世界中：

你的机器人会遇到评估者从未想到的情况。

假设你是一家制造家用机器人的公司。你在实验室里测试了又测试，修复了你发现的所有问题，然后发货产品。然后客户把它带回家，机器人在尝试导航他们特定的客厅布局时失败了——这是你的实验室里从来没有人测试过的情况。

或者假设你是一个维护通用机器人模型的开源社区。用户将它部署在全新环境（农场、仓库、医院）中的自定义硬件上，这个环境不在你的训练或测试数据中。它失败了。然后会发生什么？

在传统闭源模型中： - 用户报告问题 - 如果足够多用户抱怨，也许公司会收集数据并在下一次软件更新中修复 - 但这个过程缓慢、集中，并且取决于公司的优先级

如果我们能做得更好呢？

XRollout 愿景：社区驱动的数据闭环

我们相信，在开源世界中，社区本身可以闭合改进循环。工作原理如下：

第一步：每个人都可以报告失败

如果你的机器人在你的环境中失败了——报告它。通过 XRollout，你可以轻松地： - 上传失败视频或记录 - 添加出了什么问题的描述 - 标记场景类型（例如，"湿滑地面"，"光线不足"，"杂乱厨房"）

这不只是"提交一个 bug 单"——你正在贡献可以用来修复问题的数据。

第二步：社区收集多样化数据

大型社区的美妙之处在于，集体而言，我们能比任何单个实验室或公司看到更多场景。一个用户家里有宠物，另一个在多尘工厂工作，另一个有黑暗地下室，另一个在户外草地上测试。

每个报告的失败都是一个机会： - 它揭示了当前模型中的差距 - 它提供了来自该场景的真实世界数据 - 它让社区确定下一步修复优先级

第三步：重新训练并改进

有了这些新数据，社区可以： 1. 将失败场景添加到评估基准 2. 在新的聚合数据上重新训练模型 3. 验证修复在之前失败的场景中确实有效 4. 将改进后的模型发布回社区

这创建了一个持续改进循环：

部署 → 新场景失败 → 报告+收集数据 → 重新训练 → 改进 → 部署

为什么这可行

1. 多样性就是力量

没有哪个组织能复制全球社区每天遇到的环境多样性。你的"边缘案例"就是别人的"日常案例"。通过收集每个人的数据，我们能覆盖更广泛的真实世界分布。

2. 更快迭代

在传统模式中，用户等待供应商修复问题。在社区模式中，任何合格的研究者或开发者都可以立即开始修复问题。多个人可以并行尝试不同方法。最好的解决方案胜出。

3. 透明安全

安全在机器人领域至关重要。当失败公开报告时，每个人都能看到，每个人都能理解风险，社区可以一起修复。不需要隐藏已知问题——透明度建立信任。

4. 每个人都受益

当一个用户贡献他们场景的数据时，每个遇到相同场景的其他用户都受益。这是一项公共利益——就像开源软件本身。正如谚语所说："水涨船高"。

先有鸡还是先有蛋问题

当然，构建这个闭环系统并不容易。我们需要： - 足够多用户报告足够多多样化失败 - 足够多贡献者帮助标注和处理数据 - 足够多算力定期重新训练模型

这是一个经典的网络效应问题——更多人加入，它会变得越好。这就是为什么我们现在就开始，一起构建基础设施和社区。每一份贡献，无论多小，都能帮助系统对每个人变得更好。

你不需要是拥有大机器人的大公司就能贡献。如果你是一个爱好者在家中有一个小型机器人，你遇到了失败，你的数据和豪华研究实验室的数据一样有价值。来自真实用户的真实世界数据让这一切工作。

结语

评估不是发布前做的一次性步骤。评估是改进循环的开始。

开环评估为我们提供快速指标，用于开发过程中的快速迭代
仿真或真实硬件上的闭环评估为我们提供部署前的真实评估
但真正的改进来自部署后闭合循环——让社区报告失败并贡献未见场景的数据

这就是 XRollout 背后的核心理念：我们一起构建，我们一起改进。每一次失败都是学习的机会，每一次贡献都让机器人对每个人更智能。

如果你曾经遇到机器人在没人测试过的情况下失败——加入我们。报告失败。贡献数据。帮助我们让模型对下一个遇到相同场景的人更好。

Together, we can build robot intelligence that works in all the real world, not just the scenarios we thought to test.

一起，我们可以构建能在整个真实世界工作的机器人智能，而不仅仅是我们想到要测试的场景。

由社区构建，由社区改进——为了真实世界的所有多样性。

Evaluation to Improve Loop

从评估到闭环改进：社区反馈如何让机器人更智能

核心问题：我们如何知道机器人真的有效？

开环评估：离线方法

工作原理

为什么流行

根本问题

闭环评估：在线方法

工作原理

为什么更好（也更难）

现实世界问题：那未见场景呢？

XRollout 愿景：社区驱动的数据闭环

第一步：每个人都可以报告失败

第二步：社区收集多样化数据

第三步：重新训练并改进

为什么这可行

1. 多样性就是力量

2. 更快迭代

3. 透明安全

4. 每个人都受益

先有鸡还是先有蛋问题

结语

Comments (0)