The Art of Deliberate Practice

XRollout ๅ“ฒๅญฆ๏ผšๅˆปๆ„็ปƒไน ็š„่‰บๆœฏ

"ๆฑฝ่ฝฆไบบ๏ผŒๅ˜ๅฝขๅ‡บๅ‘๏ผ" โ€”โ€” ๆ“ŽๅคฉๆŸฑ

"XRollout"่ฟ™ไธชๅๅญ—ๆœ‰ๅŒ้‡ๅซไน‰ใ€‚ๅฎƒๅ‘ๅ˜ๅฝข้‡‘ๅˆšไธญๆ“ŽๅคฉๆŸฑ็š„ๆ ‡ๅฟ—ๆ€งๅฃๅท่‡ดๆ•ฌโ€”โ€”่ฟ™ๆ˜ฏ่กŒๅŠจใ€่ฝฌๅ˜ๅ’Œไธๆ‡ˆ่ฟฝๆฑ‚ๅ“่ถŠ็š„ๅทๅฌใ€‚ไฝ†ๆ›ดๆทฑๅˆป็š„ๆ˜ฏ๏ผŒRollout ไปฃ่กจไบ†ๆˆ‘ไปฌๆ•ฐๆฎๅ“ฒๅญฆ็š„ๅŸบ็Ÿณ๏ผš็ณป็ปŸๆ”ถ้›†ๆจกๅž‹ๅคฑ่ดฅไฝœไธบๅญฆไน ๆœบไผšใ€‚


alt text

1. ๆ ธๅฟƒๅ“ฒๅญฆ๏ผšๅˆปๆ„็ปƒไน 

1.1 ไปŽ้”™่ฏฏไธญๅญฆไน 

ๅœจไผ ็ปŸๆœบๅ™จๅญฆไน ไธญ๏ผŒๆˆ‘ไปฌ้€šๅธธๅ…ณๆณจๆˆๅŠŸ่ฝจ่ฟนโ€”โ€”ๅฑ•็คบไปปๅŠกๅบ”่ฏฅๅฆ‚ไฝ•ๅฎŒๆˆ็š„"ไธ“ๅฎถๆผ”็คบ"ใ€‚ไฝ†ๅœจ XRollout๏ผŒๆˆ‘ไปฌไฟกๅฅ‰ไธๅŒ็š„ๅ“ฒๅญฆ๏ผŒ็ตๆ„Ÿๆฅ่‡ชๅˆปๆ„็ปƒไน โ€”โ€”ๅฐฑๆ˜ฏ้‚ฃ็งๅœจไฝ“่‚ฒใ€้Ÿณไนๅ’Œๅ›ฝ้™…่ฑกๆฃ‹ไธญๅŸนๅ…ปไธ–็•Œ็บงไธ“ไธšๆŠ€่ƒฝ็š„ๆ–นๆณ•ใ€‚

"ๆœ€ๆœ‰ๆ•ˆ็š„ๅญฆไน ๅ‘็”Ÿๅœจไฝ ่ƒฝๅŠ›่Œƒๅ›ด็š„่พน็ผ˜ใ€‚"

ๆˆ‘ไปฌ็š„ rollout ๆ•ฐๆฎๅŒ…ๅซ๏ผš - ๅทฎไธ€็‚นๆˆๅŠŸ๏ผš ๅ‡ ไนŽๆˆๅŠŸ็š„่ฝจ่ฟน - ่พน็ผ˜ๆกˆไพ‹๏ผš ไธๅฏปๅธธไฝ†้‡่ฆ็š„ๅœบๆ™ฏ - ๅคฑ่ดฅๆจกๅผ๏ผš ๆจกๅž‹็Šฏไธ‹็š„็ณป็ปŸๆ€ง้”™่ฏฏ - ๆขๅค่ทฏๅพ„๏ผš ๅฆ‚ไฝ•็บ ๆญฃ้”™่ฏฏ

1.2 Rollout ๅพช็Žฏ

                    โ”Œโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”
                    โ”‚           ROLLOUT CYCLE             โ”‚
                    โ””โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”˜
                                     โ”‚
        โ”Œโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”ผโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”
        โ”‚                            โ–ผ                            โ”‚
   โ”Œโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”              โ”Œโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”              โ”Œโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”
   โ”‚          โ”‚              โ”‚              โ”‚              โ”‚          โ”‚
   โ”‚  Model   โ”‚โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ–ถโ”‚   Rollout    โ”‚โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ–ถโ”‚  Error   โ”‚
   โ”‚  Policy  โ”‚              โ”‚  Execution   โ”‚              โ”‚  Capture โ”‚
   โ”‚          โ”‚              โ”‚              โ”‚              โ”‚          โ”‚
   โ””โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”˜              โ””โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”˜              โ””โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”˜
        โ”‚                                                       โ”‚
        โ”‚                                                       โ–ผ
   โ”Œโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”              โ”Œโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”              โ”Œโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”
   โ”‚          โ”‚              โ”‚              โ”‚              โ”‚          โ”‚
   โ”‚ Improved โ”‚โ—€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”‚   Fine-      โ”‚โ—€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”‚  Difficultโ”‚
   โ”‚  Model   โ”‚              โ”‚   Tuning     โ”‚              โ”‚  Examples โ”‚
   โ”‚          โ”‚              โ”‚              โ”‚              โ”‚          โ”‚
   โ””โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”˜              โ””โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”˜              โ””โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”˜
        โ”‚                            โ”‚
        โ””โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”˜
                                     โ”‚
                                     โ–ผ
                    โ”Œโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”
                    โ”‚       CONVERGENCE: MASTERY          โ”‚
                    โ””โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”˜

1.3 ๅˆ†ๅฑ‚ๆ•ฐๆฎ้‡‘ๅญ—ๅก”

ๆˆ‘ไปฌ็š„ๆ•ฐๆฎๅˆ†ๅฑ‚็ป„็ป‡๏ผŒๆฏไธ€ๅฑ‚้ƒฝๅปบ็ซ‹ๅœจๅ‰ไธ€ๅฑ‚ไน‹ไธŠ๏ผš

                    โ”Œโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”
                    โ”‚      LEVEL 4: EXPERT SYNTHESIS      โ”‚
                    โ”‚    Curated, High-Quality Data       โ”‚
                    โ”‚         ~10K Episodes               โ”‚
                    โ”‚   (Final Training, Fine-Tuning)     โ”‚
                    โ””โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”˜
                                      โ”‚
                                      โ”‚ Feedback Loop
                                      โ–ผ
                    โ”Œโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”
                    โ”‚      LEVEL 3: VALIDATED ROLLOUTS    โ”‚
                    โ”‚   Successful Recovery Strategies  โ”‚
                    โ”‚         ~100K Episodes              โ”‚
                    โ”‚  (Curriculum Learning, Validation)    โ”‚
                    โ””โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”˜
                                      โ”‚
                                      โ”‚ Learning & Filtering
                                      โ–ผ
                    โ”Œโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”
                    โ”‚      LEVEL 2: CHALLENGE DATA      โ”‚
                    โ”‚    Near-Misses, Edge Cases          โ”‚
                    โ”‚         ~1M Episodes                โ”‚
                    โ”‚    (Hard Negative Mining)           โ”‚
                    โ””โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”˜
                                      โ”‚
                                      โ”‚ Collection & Annotation
                                      โ–ผ
                    โ”Œโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”
                    โ”‚      LEVEL 1: RAW ROLLOUTS          โ”‚
                    โ”‚    All Interactions, All Outcomes   โ”‚
                    โ”‚         ~10M+ Episodes                โ”‚
                    โ”‚   (Continuous Collection)           โ”‚
                    โ””โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”˜

ๆ ธๅฟƒๆดž่ง๏ผš้š็€ๆˆ‘ไปฌไธŠๅ‡้‡‘ๅญ—ๅก”๏ผŒๆ•ฐๆฎ่ดจ้‡ไผšๆ้ซ˜ใ€‚็›ฎๆ ‡ไธไป…ไป…ๆ˜ฏๆ›ดๅคšๆ•ฐๆฎ๏ผŒ่€Œๆ˜ฏ้’ˆๅฏนๆ€งๆ›ดๅผบ็š„ๆ•ฐๆฎ๏ผŒ่งฃๅ†ณๆจกๅž‹็‰นๅฎš็š„ๅผฑ็‚นใ€‚


2. Rollout ๆ•ฐๆฎ็‰นๅพ

2.1 ไป€ไนˆ่ฎฉ Rollout ๆ•ฐๆฎ็‰นๅˆซ๏ผŸ

ไผ ็ปŸๆ•ฐๆฎ้›†้€šๅธธๅŒ…ๅซ๏ผš - โœ“ ไธ“ๅฎถๆผ”็คบ๏ผˆๅฆ‚ไฝ•ๆญฃ็กฎๅšไบ‹๏ผ‰ - โœ“ ้šๆœบๆŽข็ดข๏ผˆๅนฟๆณ›่ฆ†็›–๏ผ‰

Rollout ๆ•ฐๆฎ้ขๅค–ๅขžๅŠ ไบ†๏ผš - โœ“ ๅทฎไธ€็‚นๆˆๅŠŸ็š„่ฝจ่ฟน๏ผˆๅ‡ ไนŽๆˆๅŠŸ๏ผ‰ - โœ“ ็ณป็ปŸๆ€งๅคฑ่ดฅ๏ผˆ้‡ๅคๅ‡บ็Žฐ็š„้”™่ฏฏๆจกๅผ๏ผ‰ - โœ“ ๆขๅค็ญ–็•ฅ๏ผˆๅฆ‚ไฝ•ไฟฎๅค้”™่ฏฏ๏ผ‰ - โœ“ ่พน็ผ˜ๆกˆไพ‹๏ผˆ็ฝ•่งไฝ†้‡่ฆ็š„ๅœบๆ™ฏ๏ผ‰

2.2 "ๅˆปๆ„็ปƒไน "ๅŽŸๅˆ™

Anders Ericsson ๅ…ณไบŽไธ“ไธšๆŠ€่ƒฝ็š„็ ”็ฉถ่กจๆ˜Ž๏ผŒไธ–็•Œ็บง่กจๆผ”่€…ไธๅชๆ˜ฏ็ปƒไน ๅพ—ๆ›ดๅคšโ€”โ€”ไป–ไปฌๅˆปๆ„็ปƒไน ๏ผš

  1. ่š็„ฆๅผฑ็‚น๏ผš็ปƒไน ไฝ ไธๆ“…้•ฟ็š„
  2. ๅณๆ—ถๅ้ฆˆ๏ผš็Ÿฅ้“ไป€ไนˆๆ—ถๅ€™็Šฏไบ†้”™่ฏฏ
  3. ๅฟซ้€Ÿ่ฟญไปฃ๏ผšๅฐ่ฏ•ใ€ๅคฑ่ดฅใ€่ฐƒๆ•ดใ€้‡ๅค
  4. ้€ๆญฅ่ฟ›้˜ถ๏ผš้š็€่ฟ›ๆญฅๅขžๅŠ ้šพๅบฆ

Rollout ๆ•ฐๆฎไฝ“็Žฐไบ†่ฟ™ไบ›ๅŽŸๅˆ™๏ผš - ๆˆ‘ไปฌๆ”ถ้›†ๅคฑ่ดฅ๏ผŒ่€Œไธไป…ไป…ๆ˜ฏๆˆๅŠŸ - ๆˆ‘ไปฌไปŽๆจกๅž‹ rollout ่Žทๅพ—ๅณๆ—ถๅ้ฆˆ - ๆˆ‘ไปฌ้€š่ฟ‡ๅœจๅ›ฐ้šพ็คบไพ‹ไธŠๅพฎ่ฐƒๆฅ่ฟญไปฃ - ๆˆ‘ไปฌ้€š่ฟ‡ๆ•ฐๆฎ้‡‘ๅญ—ๅก”้€ๆญฅ่ฟ›้˜ถ

2.3 "่ฏ•้”™"่Œƒๅผ๏ผšไปŽ้”™่ฏฏไธญๅญฆไน 

ๅฏนไบŽ RL rollout ๆ•ฐๆฎ๏ผŒๆœฌ่ดจๅœจไบŽๅ…่ฎธๆ™บ่ƒฝไฝ“/ๆœบๅ™จไบบๅœจ็Žฏๅขƒไธญ้€š่ฟ‡"่ฏ•้”™"ๆŽข็ดขๅ’Œๅญฆไน ใ€‚ๅชๆœ‰้€š่ฟ‡่ฟ™ไธช่ฟ‡็จ‹๏ผŒๆˆ‘ไปฌๆ‰่ƒฝ่Žทๅพ—ๆ›ดๆœ‰ไปทๅ€ผใ€ๆ›ดๅคšๆ ทๅŒ–็š„ๆ•ฐๆฎใ€‚่ฟ™้œ€่ฆๅ…่ฎธๆœบๅ™จไบบ็Šฏ้”™่ฏฏ็š„ๅœบๆ™ฏ๏ผšไปฟ็œŸ็Žฏๅขƒใ€่ฝฎๅผๆœบๅ™จไบบ่ฝปๅพฎ็ขฐๆ’ž็ญ‰ใ€‚

ไปŽ"ๅฎŒ็พŽๆผ”็คบ"ๅˆฐ"่ฏ•้”™ๅญฆไน "

ไผ ็ปŸๆจกไปฟ่ฟฝๆฑ‚ๅฎŒ็พŽไธ“ๅฎถๆผ”็คบ๏ผŒไฝ† RL rollout ๆญ็คบไบ†ไธ€ไธชๅ็›ด่ง‰็š„็œŸ็†๏ผšๆœ€ๆœ‰ไปทๅ€ผ็š„ๆ•ฐๆฎ้€šๅธธๆฅ่‡ช"็Šฏ้”™่ฏฏ"็š„่ฟ‡็จ‹ใ€‚

็Šถๆ€็ฉบ้—ด่ฆ†็›–

ไธ“ๅฎถๆผ”็คบๅช่ฆ†็›–"ๆญฃ็กฎ"่ฝจ่ฟน๏ผŒๅฝขๆˆ็‹ญ็ช„็š„ๆˆๅŠŸ็ฎก้“ใ€‚็Žฐๅฎžไธ–็•Œๅ……ๆปกๅนฒๆ‰ฐ๏ผŒๆœบๅ™จไบบไธๅฏ้ฟๅ…ๅœฐไผšๅ็ฆป่ฟ™ไธช็ฎก้“ใ€‚่ฏ•้”™ๆ•ฐๆฎๅกซๅ……ไบ†ๆˆๅŠŸ็ฎก้“ๅ‘จๅ›ด็š„"็ผ“ๅ†ฒๅŒบ"๏ผŒ่ฎฉ็ญ–็•ฅๅญฆไน ๅฆ‚ไฝ•ไปŽ้”™่ฏฏไธญๆขๅคใ€‚

ๅไบ‹ๅฎžๅญฆไน 

ๅชๆœ‰้€š่ฟ‡ๅฐ่ฏ•้”™่ฏฏ็š„ๅŠจไฝœ๏ผŒๆ‰่ƒฝ็†่งฃไธบไป€ไนˆๆŸไธชๅŠจไฝœๆ›ดไผ˜ใ€‚ๆœบๅ™จไบบ้€š่ฟ‡"็ขฐๅฃ"ๅปบ็ซ‹็‰ฉ็†็›ด่ง‰๏ผšๅŠ›็š„ๅคงๅฐใ€ๆ‘ฉๆ“ฆ็ณปๆ•ฐใ€ๆƒฏๆ€ง็š„ๆ„Ÿ่ง‰ใ€‚

ๅฎน้”™็Žฏๅขƒๅฑ‚็บง

ไปŽ"้›ถๆˆๆœฌ้”™่ฏฏ"ๅˆฐ"ๅฏๆŽงๆˆๆœฌ้”™่ฏฏ"็š„่ฟž็ปญไฝ“๏ผš

ๅฑ‚็บง ็Žฏๅขƒ็ฑปๅž‹ ้”™่ฏฏๆˆๆœฌ ้€‚็”จ้˜ถๆฎต
L0 ็บฏไปฟ็œŸ (Mujoco/IsaacSim) ้›ถ็‰ฉ็†ๆˆๆœฌ ็ญ–็•ฅ้ข„็ƒญใ€ๅฎ‰ๅ…จ่พน็•ŒๆŽข็ดข
L1 ๆ•ฐๅญ—ๅญช็”Ÿ (Real-to-Sim) ๆ—ถ้—ดๆˆๆœฌ ๅ‚ๆ•ฐ่ฐƒไผ˜ใ€ๅคฑ่ดฅๆกˆไพ‹ๅค็Žฐ
L2 ่ฝป้‡็‰ฉ็†ไบคไบ’ (่ฝฎๅผๆœบๅ™จไบบๆธฉๅ’Œ็ขฐๆ’ž) ่ฝปๅพฎ็ฃจๆŸ/้‡็ฝฎๆ—ถ้—ด ็œŸๅฎžๅŠจๅŠ›ๅญฆๅญฆไน 
L3 ๅ—้™็œŸๆœบ๏ผˆๅŠ›ๆŽงไฟๆŠค/่ฝฏๆŽฅ่งฆ๏ผ‰ ๆๆ–™ๆŸ่€— ็ฒพ็ป†ๆ“ไฝœๅญฆไน 
L4 ๅฎŒๅ…จ็œŸๆœบ ็œŸๅฎž็”Ÿไบงๆˆๆœฌ ๆœ€็ปˆ้ชŒ่ฏใ€ๆ•ฐๆฎๆ”ถ่Žท

ๆŽข็ดข็ญ–็•ฅไธญ"ๅฎ‰ๅ…จ่พน็•Œ"็š„่‰บๆœฏ

ๅฅฝๅฅ‡ๅฟƒ้ฉฑๅŠจๆœบๅˆถ

  • ๅ†…ๅœจๆฟ€ๅŠฑ (ICM/RND)๏ผš็งฏๆžๅฏปๆ‰พ"ๆ„ๅค–"็Šถๆ€่ฝฌ็งป
  • ไธ็กฎๅฎšๆ€งไผฐ่ฎก๏ผšๆจกๅž‹ๅœจๅ“ช้‡Œ้ข„ๆต‹ๆœ€ไธๅ‡†็กฎ๏ผŸไผ˜ๅ…ˆๅŽป้‚ฃ้‡Œ
  • ๅฏ†ๅบฆๆจกๅž‹๏ผš้ฟๅ…ๅ……ๅˆ†ๆŽข็ดข็š„ๅŒบๅŸŸ๏ผŒๅฏปๆ‰พ"ๆ•ฐๆฎๆฒ™ๆผ "

ไธŽๆขๅค็ญ–็•ฅ้…ๅˆ

  • ไธป็ญ–็•ฅ่ดŸ่ดฃ"ๅ‘ๅ‰ๆŽข็ดข"๏ผŒๆขๅค็ญ–็•ฅ่ดŸ่ดฃ"ๅฎ‰ๅ…จ้€€ๅ‡บ"
  • ๅฝ“ rollout ๆฃ€ๆต‹ๅˆฐๅฑ้™ฉ็Šถๆ€๏ผˆๅฆ‚ๅ…ณ่Š‚ๆž้™ใ€ไธ็จณๅฎšๅงฟๆ€๏ผ‰๏ผŒ่งฆๅ‘ๆขๅค็ญ–็•ฅๅฐ†็ณป็ปŸๅธฆๅ›žๅฎ‰ๅ…จๅŒบๅŸŸ
  • ่ฟ™ๅ…่ฎธๅณไฝฟไธป็ญ–็•ฅ"็Šฏไบ†้”™่ฏฏ"๏ผŒ็ณป็ปŸไป็„ถๅฏไปฅๅฎ‰ๅ…จๅœฐ็ปง็ปญๆ”ถ้›†ๆ•ฐๆฎ

3. ไปŽ Rollout ๅˆฐ็ฒพ้€š

3.1 ๆŒ็ปญๆ”น่ฟ›ๅพช็Žฏ

โ”Œโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”
โ”‚                     CONTINUOUS IMPROVEMENT                          โ”‚
โ””โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”˜

Phase 1: DEPLOY
โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€
  โ€ข Deploy model to real or simulated environment
  โ€ข Monitor performance continuously
  โ€ข Log all interactions (successes AND failures)

        โ†“

Phase 2: IDENTIFY WEAKNESSES
โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€
  โ€ข Analyze failure patterns
  โ€ข Cluster similar mistakes
  โ€ข Prioritize by frequency and severity
  โ€ข Tag difficult examples

        โ†“

Phase 3: EXTRACT ROLLOUTS
โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€
  โ€ข Select near-miss trajectories
  โ€ข Identify edge cases
  โ€ข Find successful recoveries
  โ€ข Annotate with expert feedback

        โ†“

Phase 4: CURATE & AUGMENT
โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€
  โ€ข Filter for quality
  โ€ข Apply data augmentation
  โ€ข Balance classes
  โ€ข Move up the data pyramid

        โ†“

Phase 5: FINE-TUNE
โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€
  โ€ข Train on curated rollout data
  โ€ข Focus on difficult examples
  โ€ข Validate improvement
  โ€ข A/B test against previous model

        โ†“

Phase 6: VALIDATE
โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€
  โ€ข Test on held-out scenarios
  โ€ข Check for regression
  โ€ข Measure real-world improvement
  โ€ข Document lessons learned

        โ†“
        โ””โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”
                                             โ”‚
        โ†โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”˜
                 REPEAT CYCLE

3.2 ๆˆๅŠŸๆŒ‡ๆ ‡

ๆˆ‘ไปฌๅฆ‚ไฝ•็Ÿฅ้“ rollout ๅ“ฒๅญฆๆœ‰ๆ•ˆ๏ผŸ

ๆ•ฐ้‡ๆŒ‡ๆ ‡๏ผš - ๆ”ถ้›†ๅˆฐ็š„็‹ฌ็‰นๅคฑ่ดฅๆจกๅผๆ•ฐ้‡ - ่พน็ผ˜ๆกˆไพ‹่ฆ†็›–็އ - ๅœบๆ™ฏๅคšๆ ทๆ€ง

่ดจ้‡ๆŒ‡ๆ ‡๏ผš - ๅพฎ่ฐƒๅŽๆจกๅž‹ๆ€ง่ƒฝๆ”น่ฟ› - ็•™ๅ‡บๆ•ฐๆฎไธŠๅคฑ่ดฅ็އ้™ไฝŽ - ่ฎญ็ปƒ่ฟ‡็จ‹ไธญๆ›ดๅฟซๆ”ถๆ•›

่ฟ‡็จ‹ๆŒ‡ๆ ‡๏ผš - ไปŽๅคฑ่ดฅ่ง‚ๅฏŸๅˆฐ็บณๅ…ฅๆ•ฐๆฎ้›†็š„ๆ—ถ้—ด - ไธ“ๅฎถๆ ‡ๆณจๅžๅ้‡ - ๆ•ฐๆฎ้‡‘ๅญ—ๅก”ๅฑ‚็บง่ฟ›ๅฑ•


4. ๅฎž็ŽฐๆŒ‡ๅ—

4.1 ๅผ€ๅง‹ Rollout

็ฌฌไธ€ๆญฅ๏ผš่ฎพ็ฝฎๆ•ฐๆฎๆ”ถ้›†

# Configure your data collection system
from data.tools.ros2_recorder import ROS2DataCollector

collector = ROS2DataCollector(
    robot_type="so100",
    camera_topics=["/camera/image_raw"],
    state_topic="/joint_states",
    action_topic="/cmd_vel"
)

็ฌฌไบŒๆญฅ๏ผš้ƒจ็ฝฒๅ’Œ็›‘ๆŽง

# Deploy your model
ros2 launch xrollout deploy.launch.py model:=checkpoint.pt

# Monitor in real-time
ros2 run xrollout monitor --dashboard

็ฌฌไธ‰ๆญฅ๏ผšๆๅ–ๅคฑ่ดฅ

# Query the failure database
xrollout query \
  --task "pick_and_place" \
  --success-rate-lt 0.5 \
  --min-attempts 10 \
  --output failures.json

็ฌฌๅ››ๆญฅ๏ผšๆ•ด็†ๅ’Œๅขžๅผบ

# Build the data pyramid
xrollout pyramid build \
  --raw-data ./raw_rollouts \
  --output ./pyramid \
  --levels 4

็ฌฌไบ”ๆญฅ๏ผšๅพฎ่ฐƒ

# Train on curated rollout data
xrollout train \
  --base-model checkpoint.pt \
  --data ./pyramid/level4 \
  --epochs 50 \
  --lr 1e-5 \
  --output new_checkpoint.pt

4.2 ๆœ€ไฝณๅฎž่ทต

1. ไธ“ๆณจๅคšๆ ทๆ€ง - ไธ่ฆๅชๆ”ถ้›†ไธ€็ง็ฑปๅž‹็š„ๅคฑ่ดฅ - ๅฏปๆ‰พ่พน็ผ˜ๆกˆไพ‹ๅ’Œ่ง’่ฝๆกˆไพ‹ - ๅœจไธๅŒ็Žฏๅขƒๅ’Œๆกไปถไธ‹ๆต‹่ฏ•

2. ไฟๆŒ่ดจ้‡ๆŽงๅˆถ - ็บณๅ…ฅๅ‰้ชŒ่ฏๆ‰€ๆœ‰ๆ”ถ้›†็š„ๆ•ฐๆฎ - ๅฏนๆจก็ณŠๆกˆไพ‹ไฝฟ็”จไบบๅทฅๅฎกๆ ธ - ่ฟ‡ๆปคๆމๆŸๅๆˆ–ไธ็›ธๅ…ณ็š„ๆ•ฐๆฎ

3. ๅนณ่กกๆ•ฐๆฎ้›† - ไธ่ฆ่ฎฉไธ€็งๅคฑ่ดฅๆจกๅผๅ ๆฎไธปๅฏผ - ็กฎไฟๆ‰€ๆœ‰ไปปๅŠก็ฑปๅž‹้ƒฝๆœ‰ไปฃ่กจๆ€ง - ้€‰ๆ‹ฉๆ•ฐๆฎๆ—ถไฝฟ็”จๅˆ†ๅฑ‚้‡‡ๆ ท

4. ๅฟซ้€Ÿ่ฟญไปฃ - ไธ่ฆ็ญ‰ๅˆฐๅฎŒ็พŽๆ•ฐๆฎๆ‰่ฎญ็ปƒ - ๆŒ็ปญ้ƒจ็ฝฒใ€่ง‚ๅฏŸใ€ๅญฆไน ๅ’Œๆ”น่ฟ› - ๆฏๆฌก่ฟญไปฃ้ƒฝๅปบ็ซ‹ๅœจไธŠไธ€ๆฌก็š„ๅŸบ็ก€ไธŠ

5. ่ฎฐๅฝ•ไธ€ๅˆ‡ - ่ทŸ่ธชๆ•ฐๆฎ่ก€็ปŸๅ’Œๆฅๆบ - ่ฎฐๅฝ•ๆ‰€ๆœ‰ๅ†ณ็ญ–ๅŠๅ…ถ็†็”ฑ - ๅœจๅ›ข้˜Ÿ้—ดๅˆ†ไบซ็Ÿฅ่ฏ†


5. ็ป“่ฎบ

XRollout ๅ“ฒๅญฆไธไป…ไป…ๆ˜ฏไธ€็งๆ•ฐๆฎๆ”ถ้›†็ญ–็•ฅโ€”โ€”ๅฎƒๆ˜ฏไธ€็งๅฟƒๆ€ใ€‚ๅฎƒๆ„ๅ‘ณ็€ๆ‹ฅๆŠฑๅคฑ่ดฅไฝœไธบ้€šๅพ€็ฒพ้€š็š„้“่ทฏ๏ผŒๆฏ”่ตท็›ฒ็›ฎ้‡ๅคๆ›ด็œ‹้‡ๅˆปๆ„็ปƒไน ๏ผŒๆฏ”่ตทไธ€ๆฌกๆ€ง่ฎญ็ปƒๆ›ด็œ‹้‡ๆŒ็ปญๆ”น่ฟ›ใ€‚

ๆญฃๅฆ‚ๆ“ŽๅคฉๆŸฑๅทๅฌๆฑฝ่ฝฆไบบๅ˜ๅฝขๅ‡บๅ‘ไธ€ๆ ท๏ผŒๆˆ‘ไปฌๅทๅฌๆˆ‘ไปฌ็š„ๆจกๅž‹ไปŽ้”™่ฏฏไธญๅญฆไน ๏ผŒๅ˜ๅพ—ๆ›ดๅผบๅคงใ€‚ๆฏไธ€ๆฌก rollout ไธไป…ไป…ๆ˜ฏไธ€ไธชๆ•ฐๆฎ็‚นโ€”โ€”ๅฎƒๆ˜ฏ้€šๅพ€็ฒพ้€š็š„ไธ€ๆญฅใ€‚

"ๅคงๅธˆๅคฑ่ดฅ็š„ๆฌกๆ•ฐๆฏ”ๅˆๅญฆ่€…ๅฐ่ฏ•็š„ๆฌกๆ•ฐ่ฟ˜่ฆๅคšใ€‚"

ๆฌข่ฟŽๆฅๅˆฐ XRolloutใ€‚่ฎฉๆˆ‘ไปฌไธ€่ตท roll outใ€‚


"ๆฑฝ่ฝฆไบบ๏ผŒๅ‡บๅ‘๏ผ" ๐Ÿš€


ๆœ€ๅŽๆ›ดๆ–ฐ๏ผš2026-03-19 ็ปดๆŠค่€…๏ผšXRollout Team

Comments (0)