WorldSample: 세계 모델링을 이용한 폐쇄 루프 실물 로봇 강화학습 (RL)

강화학습 (RL)은 로봇이 시연 (demonstration)에서 관찰된 상태를 넘어 시행착오 (trial-and-error) 상호작용을 통해 개선될 수 있도록 함으로써, 모방 학습 (IL)의 시연 범위 제한 문제를 극복할 수 있습니다. 그러나 실제 로봇에 RL을 배포하는 것은 높은 상호작용 비용으로 인해 여전히 제약을 받는데, 이는 각 물리적 롤아웃 (rollout)이 비용이 많이 들고 단 하나의 실현된 행동-결과 경로만을 반영하기 때문입니다. 이러한 과제를 해결하기 위해, 우리는 물리적 롤아웃, 세계 모델 (world-model) 생성, 그리고 정책 (policy) 개선 사이의 실물-합성 루프 (real-synthetic loop)를 완성하는 실물 로봇 RL을 위한 물리 기반 데이터 증강 프레임워크인 WorldSample을 제안합니다. 실제 롤아웃에 기반하여, WorldSample은 사후 학습된 (post-trained) 세계 모델을 통해 고충실도 (high-fidelity) 합성 전이 (synthetic transitions)를 생성하며, 이는 시각적 환각 (visual hallucination)을 크게 낮춥니다. 구체적으로, WorldSample은 이러한 전이들을 단순히 실제 세계의 경험으로 사용하는 대신, 샘플 선택 및 스케줄링을 통해 훈련 과정을 조절하는 정책 속도 학습 (Policy-Paced Learning, PPL)을 도입하여, 유용한 증강과 가치 과대평가 (value overestimation) 사이의 균형을 맞추고 환각으로 인한 노이즈를 완화합니다. 접촉이 빈번하고 정밀한 작업이 포함된 로봇 조작 (robot manipulation) 작업에 대한 실험 결과, WorldSample은 베이스라인 대비 훈련 단계를 59% 줄이면서 정책 성공률을 28% 향상시키는 것을 보여주었습니다. 또한, WorldSample은 시연 데이터만을 사용한 사후 학습 대비 세계 모델의 시각적 충실도를 PSNR 기준 19.4dB, SSIM 기준 0.47 향상시켰으며, 이는 정책과 세계 모델 성능 모두에 있어 실물-합성 루프의 효과를 입증합니다.

Insights

WorldSample: 세계 모델링을 이용한 폐쇄 루프 실물 로봇 강화학습 (RL)

요약

핵심 포인트

댓글

Palantir CEO Alex Karp: 기업들은 비즈니스 가치를 "훔치는" AI 모델에 대해 "격분"하고 있다

Susquehanna, 반도체 장비 지출 전망 상향에 따라 Teradyne 목표가를 시장 최고치인 $550로 상향

5분 만에 SSH 키 인증 (SSH Key Authentication) 설정하는 방법

Robinhood, 유럽 내 무기한 선물 서비스 확대 및 영국 내 암호화폐 출시 계획 발표

Susquehanna, 반도체 장비 지출 전망 상향에 따라 Teradyne 목표가를 시장 최고치인 $550로 상향

5분 만에 SSH 키 인증 (SSH Key Authentication) 설정하는 방법

Robinhood, 유럽 내 무기한 선물 서비스 확대 및 영국 내 암호화폐 출시 계획 발표