XRollout ๅฒๅญฆ๏ผๅปๆ็ปไน ็่บๆฏ
"ๆฑฝ่ฝฆไบบ๏ผๅๅฝขๅบๅ๏ผ" โโ ๆๅคฉๆฑ
"XRollout"่ฟไธชๅๅญๆๅ้ๅซไนใๅฎๅๅๅฝข้ๅไธญๆๅคฉๆฑ็ๆ ๅฟๆงๅฃๅท่ดๆฌโโ่ฟๆฏ่กๅจใ่ฝฌๅๅไธๆ่ฟฝๆฑๅ่ถ็ๅทๅฌใไฝๆดๆทฑๅป็ๆฏ๏ผRollout ไปฃ่กจไบๆไปฌๆฐๆฎๅฒๅญฆ็ๅบ็ณ๏ผ็ณป็ปๆถ้ๆจกๅๅคฑ่ดฅไฝไธบๅญฆไน ๆบไผใ

1. ๆ ธๅฟๅฒๅญฆ๏ผๅปๆ็ปไน
1.1 ไป้่ฏฏไธญๅญฆไน
ๅจไผ ็ปๆบๅจๅญฆไน ไธญ๏ผๆไปฌ้ๅธธๅ ณๆณจๆๅ่ฝจ่ฟนโโๅฑ็คบไปปๅกๅบ่ฏฅๅฆไฝๅฎๆ็"ไธๅฎถๆผ็คบ"ใไฝๅจ XRollout๏ผๆไปฌไฟกๅฅไธๅ็ๅฒๅญฆ๏ผ็ตๆๆฅ่ชๅปๆ็ปไน โโๅฐฑๆฏ้ฃ็งๅจไฝ่ฒใ้ณไนๅๅฝ้ ่ฑกๆฃไธญๅนๅ ปไธ็็บงไธไธๆ่ฝ็ๆนๆณใ
"ๆๆๆ็ๅญฆไน ๅ็ๅจไฝ ่ฝๅ่ๅด็่พน็ผใ"
ๆไปฌ็ rollout ๆฐๆฎๅ ๅซ๏ผ - ๅทฎไธ็นๆๅ๏ผ ๅ ไนๆๅ็่ฝจ่ฟน - ่พน็ผๆกไพ๏ผ ไธๅฏปๅธธไฝ้่ฆ็ๅบๆฏ - ๅคฑ่ดฅๆจกๅผ๏ผ ๆจกๅ็ฏไธ็็ณป็ปๆง้่ฏฏ - ๆขๅค่ทฏๅพ๏ผ ๅฆไฝ็บ ๆญฃ้่ฏฏ
1.2 Rollout ๅพช็ฏ
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ
โ ROLLOUT CYCLE โ
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ
โ
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโผโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ
โ โผ โ
โโโโโโโโโโโโ โโโโโโโโโโโโโโโโ โโโโโโโโโโโโ
โ โ โ โ โ โ
โ Model โโโโโโโโโโโโโโโถโ Rollout โโโโโโโโโโโโโโโถโ Error โ
โ Policy โ โ Execution โ โ Capture โ
โ โ โ โ โ โ
โโโโโโโโโโโโ โโโโโโโโโโโโโโโโ โโโโโโโโโโโโ
โ โ
โ โผ
โโโโโโโโโโโโ โโโโโโโโโโโโโโโโ โโโโโโโโโโโโ
โ โ โ โ โ โ
โ Improved โโโโโโโโโโโโโโโโ Fine- โโโโโโโโโโโโโโโโ Difficultโ
โ Model โ โ Tuning โ โ Examples โ
โ โ โ โ โ โ
โโโโโโโโโโโโ โโโโโโโโโโโโโโโโ โโโโโโโโโโโโ
โ โ
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ
โ
โผ
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ
โ CONVERGENCE: MASTERY โ
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ
1.3 ๅๅฑๆฐๆฎ้ๅญๅก
ๆไปฌ็ๆฐๆฎๅๅฑ็ป็ป๏ผๆฏไธๅฑ้ฝๅปบ็ซๅจๅไธๅฑไนไธ๏ผ
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ
โ LEVEL 4: EXPERT SYNTHESIS โ
โ Curated, High-Quality Data โ
โ ~10K Episodes โ
โ (Final Training, Fine-Tuning) โ
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ
โ
โ Feedback Loop
โผ
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ
โ LEVEL 3: VALIDATED ROLLOUTS โ
โ Successful Recovery Strategies โ
โ ~100K Episodes โ
โ (Curriculum Learning, Validation) โ
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ
โ
โ Learning & Filtering
โผ
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ
โ LEVEL 2: CHALLENGE DATA โ
โ Near-Misses, Edge Cases โ
โ ~1M Episodes โ
โ (Hard Negative Mining) โ
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ
โ
โ Collection & Annotation
โผ
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ
โ LEVEL 1: RAW ROLLOUTS โ
โ All Interactions, All Outcomes โ
โ ~10M+ Episodes โ
โ (Continuous Collection) โ
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ
ๆ ธๅฟๆด่ง๏ผ้็ๆไปฌไธๅ้ๅญๅก๏ผๆฐๆฎ่ดจ้ไผๆ้ซใ็ฎๆ ไธไป ไป ๆฏๆดๅคๆฐๆฎ๏ผ่ๆฏ้ๅฏนๆงๆดๅผบ็ๆฐๆฎ๏ผ่งฃๅณๆจกๅ็นๅฎ็ๅผฑ็นใ
2. Rollout ๆฐๆฎ็นๅพ
2.1 ไปไน่ฎฉ Rollout ๆฐๆฎ็นๅซ๏ผ
ไผ ็ปๆฐๆฎ้้ๅธธๅ ๅซ๏ผ - โ ไธๅฎถๆผ็คบ๏ผๅฆไฝๆญฃ็กฎๅไบ๏ผ - โ ้ๆบๆข็ดข๏ผๅนฟๆณ่ฆ็๏ผ
Rollout ๆฐๆฎ้ขๅคๅขๅ ไบ๏ผ - โ ๅทฎไธ็นๆๅ็่ฝจ่ฟน๏ผๅ ไนๆๅ๏ผ - โ ็ณป็ปๆงๅคฑ่ดฅ๏ผ้ๅคๅบ็ฐ็้่ฏฏๆจกๅผ๏ผ - โ ๆขๅค็ญ็ฅ๏ผๅฆไฝไฟฎๅค้่ฏฏ๏ผ - โ ่พน็ผๆกไพ๏ผ็ฝ่งไฝ้่ฆ็ๅบๆฏ๏ผ
2.2 "ๅปๆ็ปไน "ๅๅ
Anders Ericsson ๅ ณไบไธไธๆ่ฝ็็ ็ฉถ่กจๆ๏ผไธ็็บง่กจๆผ่ ไธๅชๆฏ็ปไน ๅพๆดๅคโโไปไปฌๅปๆ็ปไน ๏ผ
- ่็ฆๅผฑ็น๏ผ็ปไน ไฝ ไธๆ ้ฟ็
- ๅณๆถๅ้ฆ๏ผ็ฅ้ไปไนๆถๅ็ฏไบ้่ฏฏ
- ๅฟซ้่ฟญไปฃ๏ผๅฐ่ฏใๅคฑ่ดฅใ่ฐๆดใ้ๅค
- ้ๆญฅ่ฟ้ถ๏ผ้็่ฟๆญฅๅขๅ ้พๅบฆ
Rollout ๆฐๆฎไฝ็ฐไบ่ฟไบๅๅ๏ผ - ๆไปฌๆถ้ๅคฑ่ดฅ๏ผ่ไธไป ไป ๆฏๆๅ - ๆไปฌไปๆจกๅ rollout ่ทๅพๅณๆถๅ้ฆ - ๆไปฌ้่ฟๅจๅฐ้พ็คบไพไธๅพฎ่ฐๆฅ่ฟญไปฃ - ๆไปฌ้่ฟๆฐๆฎ้ๅญๅก้ๆญฅ่ฟ้ถ
2.3 "่ฏ้"่ๅผ๏ผไป้่ฏฏไธญๅญฆไน
ๅฏนไบ RL rollout ๆฐๆฎ๏ผๆฌ่ดจๅจไบๅ ่ฎธๆบ่ฝไฝ/ๆบๅจไบบๅจ็ฏๅขไธญ้่ฟ"่ฏ้"ๆข็ดขๅๅญฆไน ใๅชๆ้่ฟ่ฟไธช่ฟ็จ๏ผๆไปฌๆ่ฝ่ทๅพๆดๆไปทๅผใๆดๅคๆ ทๅ็ๆฐๆฎใ่ฟ้่ฆๅ ่ฎธๆบๅจไบบ็ฏ้่ฏฏ็ๅบๆฏ๏ผไปฟ็็ฏๅขใ่ฝฎๅผๆบๅจไบบ่ฝปๅพฎ็ขฐๆ็ญใ
ไป"ๅฎ็พๆผ็คบ"ๅฐ"่ฏ้ๅญฆไน "
ไผ ็ปๆจกไปฟ่ฟฝๆฑๅฎ็พไธๅฎถๆผ็คบ๏ผไฝ RL rollout ๆญ็คบไบไธไธชๅ็ด่ง็็็๏ผๆๆไปทๅผ็ๆฐๆฎ้ๅธธๆฅ่ช"็ฏ้่ฏฏ"็่ฟ็จใ
็ถๆ็ฉบ้ด่ฆ็
ไธๅฎถๆผ็คบๅช่ฆ็"ๆญฃ็กฎ"่ฝจ่ฟน๏ผๅฝขๆ็ญ็ช็ๆๅ็ฎก้ใ็ฐๅฎไธ็ๅ ๆปกๅนฒๆฐ๏ผๆบๅจไบบไธๅฏ้ฟๅ ๅฐไผๅ็ฆป่ฟไธช็ฎก้ใ่ฏ้ๆฐๆฎๅกซๅ ไบๆๅ็ฎก้ๅจๅด็"็ผๅฒๅบ"๏ผ่ฎฉ็ญ็ฅๅญฆไน ๅฆไฝไป้่ฏฏไธญๆขๅคใ
ๅไบๅฎๅญฆไน
ๅชๆ้่ฟๅฐ่ฏ้่ฏฏ็ๅจไฝ๏ผๆ่ฝ็่งฃไธบไปไนๆไธชๅจไฝๆดไผใๆบๅจไบบ้่ฟ"็ขฐๅฃ"ๅปบ็ซ็ฉ็็ด่ง๏ผๅ็ๅคงๅฐใๆฉๆฆ็ณปๆฐใๆฏๆง็ๆ่งใ
ๅฎน้็ฏๅขๅฑ็บง
ไป"้ถๆๆฌ้่ฏฏ"ๅฐ"ๅฏๆงๆๆฌ้่ฏฏ"็่ฟ็ปญไฝ๏ผ
| ๅฑ็บง | ็ฏๅข็ฑปๅ | ้่ฏฏๆๆฌ | ้็จ้ถๆฎต |
|---|---|---|---|
| L0 | ็บฏไปฟ็ (Mujoco/IsaacSim) | ้ถ็ฉ็ๆๆฌ | ็ญ็ฅ้ข็ญใๅฎๅ จ่พน็ๆข็ดข |
| L1 | ๆฐๅญๅญช็ (Real-to-Sim) | ๆถ้ดๆๆฌ | ๅๆฐ่ฐไผใๅคฑ่ดฅๆกไพๅค็ฐ |
| L2 | ่ฝป้็ฉ็ไบคไบ (่ฝฎๅผๆบๅจไบบๆธฉๅ็ขฐๆ) | ่ฝปๅพฎ็ฃจๆ/้็ฝฎๆถ้ด | ็ๅฎๅจๅๅญฆๅญฆไน |
| L3 | ๅ้็ๆบ๏ผๅๆงไฟๆค/่ฝฏๆฅ่งฆ๏ผ | ๆๆๆ่ | ็ฒพ็ปๆไฝๅญฆไน |
| L4 | ๅฎๅ จ็ๆบ | ็ๅฎ็ไบงๆๆฌ | ๆ็ป้ช่ฏใๆฐๆฎๆถ่ท |
ๆข็ดข็ญ็ฅไธญ"ๅฎๅ จ่พน็"็่บๆฏ
ๅฅฝๅฅๅฟ้ฉฑๅจๆบๅถ
- ๅ ๅจๆฟๅฑ (ICM/RND)๏ผ็งฏๆๅฏปๆพ"ๆๅค"็ถๆ่ฝฌ็งป
- ไธ็กฎๅฎๆงไผฐ่ฎก๏ผๆจกๅๅจๅช้้ขๆตๆไธๅ็กฎ๏ผไผๅ ๅป้ฃ้
- ๅฏๅบฆๆจกๅ๏ผ้ฟๅ ๅ ๅๆข็ดข็ๅบๅ๏ผๅฏปๆพ"ๆฐๆฎๆฒๆผ "
ไธๆขๅค็ญ็ฅ้ ๅ
- ไธป็ญ็ฅ่ด่ดฃ"ๅๅๆข็ดข"๏ผๆขๅค็ญ็ฅ่ด่ดฃ"ๅฎๅ จ้ๅบ"
- ๅฝ rollout ๆฃๆตๅฐๅฑ้ฉ็ถๆ๏ผๅฆๅ ณ่ๆ้ใไธ็จณๅฎๅงฟๆ๏ผ๏ผ่งฆๅๆขๅค็ญ็ฅๅฐ็ณป็ปๅธฆๅๅฎๅ จๅบๅ
- ่ฟๅ ่ฎธๅณไฝฟไธป็ญ็ฅ"็ฏไบ้่ฏฏ"๏ผ็ณป็ปไป็ถๅฏไปฅๅฎๅ จๅฐ็ปง็ปญๆถ้ๆฐๆฎ
3. ไป Rollout ๅฐ็ฒพ้
3.1 ๆ็ปญๆน่ฟๅพช็ฏ
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ
โ CONTINUOUS IMPROVEMENT โ
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ
Phase 1: DEPLOY
โโโโโโโโโโโโโโโโ
โข Deploy model to real or simulated environment
โข Monitor performance continuously
โข Log all interactions (successes AND failures)
โ
Phase 2: IDENTIFY WEAKNESSES
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโ
โข Analyze failure patterns
โข Cluster similar mistakes
โข Prioritize by frequency and severity
โข Tag difficult examples
โ
Phase 3: EXTRACT ROLLOUTS
โโโโโโโโโโโโโโโโโโโโโโโโโโ
โข Select near-miss trajectories
โข Identify edge cases
โข Find successful recoveries
โข Annotate with expert feedback
โ
Phase 4: CURATE & AUGMENT
โโโโโโโโโโโโโโโโโโโโโโโโโโ
โข Filter for quality
โข Apply data augmentation
โข Balance classes
โข Move up the data pyramid
โ
Phase 5: FINE-TUNE
โโโโโโโโโโโโโโโโโโ
โข Train on curated rollout data
โข Focus on difficult examples
โข Validate improvement
โข A/B test against previous model
โ
Phase 6: VALIDATE
โโโโโโโโโโโโโโโโโโ
โข Test on held-out scenarios
โข Check for regression
โข Measure real-world improvement
โข Document lessons learned
โ
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ
โ
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ
REPEAT CYCLE
3.2 ๆๅๆๆ
ๆไปฌๅฆไฝ็ฅ้ rollout ๅฒๅญฆๆๆ๏ผ
ๆฐ้ๆๆ ๏ผ - ๆถ้ๅฐ็็ฌ็นๅคฑ่ดฅๆจกๅผๆฐ้ - ่พน็ผๆกไพ่ฆ็็ - ๅบๆฏๅคๆ ทๆง
่ดจ้ๆๆ ๏ผ - ๅพฎ่ฐๅๆจกๅๆง่ฝๆน่ฟ - ็ๅบๆฐๆฎไธๅคฑ่ดฅ็้ไฝ - ่ฎญ็ป่ฟ็จไธญๆดๅฟซๆถๆ
่ฟ็จๆๆ ๏ผ - ไปๅคฑ่ดฅ่งๅฏๅฐ็บณๅ ฅๆฐๆฎ้็ๆถ้ด - ไธๅฎถๆ ๆณจๅๅ้ - ๆฐๆฎ้ๅญๅกๅฑ็บง่ฟๅฑ
4. ๅฎ็ฐๆๅ
4.1 ๅผๅง Rollout
็ฌฌไธๆญฅ๏ผ่ฎพ็ฝฎๆฐๆฎๆถ้
# Configure your data collection system
from data.tools.ros2_recorder import ROS2DataCollector
collector = ROS2DataCollector(
robot_type="so100",
camera_topics=["/camera/image_raw"],
state_topic="/joint_states",
action_topic="/cmd_vel"
)
็ฌฌไบๆญฅ๏ผ้จ็ฝฒๅ็ๆง
# Deploy your model
ros2 launch xrollout deploy.launch.py model:=checkpoint.pt
# Monitor in real-time
ros2 run xrollout monitor --dashboard
็ฌฌไธๆญฅ๏ผๆๅๅคฑ่ดฅ
# Query the failure database
xrollout query \
--task "pick_and_place" \
--success-rate-lt 0.5 \
--min-attempts 10 \
--output failures.json
็ฌฌๅๆญฅ๏ผๆด็ๅๅขๅผบ
# Build the data pyramid
xrollout pyramid build \
--raw-data ./raw_rollouts \
--output ./pyramid \
--levels 4
็ฌฌไบๆญฅ๏ผๅพฎ่ฐ
# Train on curated rollout data
xrollout train \
--base-model checkpoint.pt \
--data ./pyramid/level4 \
--epochs 50 \
--lr 1e-5 \
--output new_checkpoint.pt
4.2 ๆไฝณๅฎ่ทต
1. ไธๆณจๅคๆ ทๆง - ไธ่ฆๅชๆถ้ไธ็ง็ฑปๅ็ๅคฑ่ดฅ - ๅฏปๆพ่พน็ผๆกไพๅ่ง่ฝๆกไพ - ๅจไธๅ็ฏๅขๅๆกไปถไธๆต่ฏ
2. ไฟๆ่ดจ้ๆงๅถ - ็บณๅ ฅๅ้ช่ฏๆๆๆถ้็ๆฐๆฎ - ๅฏนๆจก็ณๆกไพไฝฟ็จไบบๅทฅๅฎกๆ ธ - ่ฟๆปคๆๆๅๆไธ็ธๅ ณ็ๆฐๆฎ
3. ๅนณ่กกๆฐๆฎ้ - ไธ่ฆ่ฎฉไธ็งๅคฑ่ดฅๆจกๅผๅ ๆฎไธปๅฏผ - ็กฎไฟๆๆไปปๅก็ฑปๅ้ฝๆไปฃ่กจๆง - ้ๆฉๆฐๆฎๆถไฝฟ็จๅๅฑ้ๆ ท
4. ๅฟซ้่ฟญไปฃ - ไธ่ฆ็ญๅฐๅฎ็พๆฐๆฎๆ่ฎญ็ป - ๆ็ปญ้จ็ฝฒใ่งๅฏใๅญฆไน ๅๆน่ฟ - ๆฏๆฌก่ฟญไปฃ้ฝๅปบ็ซๅจไธไธๆฌก็ๅบ็กไธ
5. ่ฎฐๅฝไธๅ - ่ท่ธชๆฐๆฎ่ก็ปๅๆฅๆบ - ่ฎฐๅฝๆๆๅณ็ญๅๅ ถ็็ฑ - ๅจๅข้้ดๅไบซ็ฅ่ฏ
5. ็ป่ฎบ
XRollout ๅฒๅญฆไธไป ไป ๆฏไธ็งๆฐๆฎๆถ้็ญ็ฅโโๅฎๆฏไธ็งๅฟๆใๅฎๆๅณ็ๆฅๆฑๅคฑ่ดฅไฝไธบ้ๅพ็ฒพ้็้่ทฏ๏ผๆฏ่ตท็ฒ็ฎ้ๅคๆด็้ๅปๆ็ปไน ๏ผๆฏ่ตทไธๆฌกๆง่ฎญ็ปๆด็้ๆ็ปญๆน่ฟใ
ๆญฃๅฆๆๅคฉๆฑๅทๅฌๆฑฝ่ฝฆไบบๅๅฝขๅบๅไธๆ ท๏ผๆไปฌๅทๅฌๆไปฌ็ๆจกๅไป้่ฏฏไธญๅญฆไน ๏ผๅๅพๆดๅผบๅคงใๆฏไธๆฌก rollout ไธไป ไป ๆฏไธไธชๆฐๆฎ็นโโๅฎๆฏ้ๅพ็ฒพ้็ไธๆญฅใ
"ๅคงๅธๅคฑ่ดฅ็ๆฌกๆฐๆฏๅๅญฆ่ ๅฐ่ฏ็ๆฌกๆฐ่ฟ่ฆๅคใ"
ๆฌข่ฟๆฅๅฐ XRolloutใ่ฎฉๆไปฌไธ่ตท roll outใ
"ๆฑฝ่ฝฆไบบ๏ผๅบๅ๏ผ" ๐
ๆๅๆดๆฐ๏ผ2026-03-19 ็ปดๆค่ ๏ผXRollout Team
Comments (0)
Please sign in to leave a comment.