WorldSample: 세계 모델링을 이용한 폐쇄 루프 실물 로봇 강화학습 (RL)
요약
WorldSample은 실제 로봇의 물리적 롤아웃과 세계 모델(world-model)을 결합하여 데이터 증강을 수행하는 프레임워크입니다. 정책 속도 학습(PPL)을 통해 시각적 환각을 줄이고, 로봇 조작 작업에서 훈련 단계 단축과 성공률 향상을 동시에 달성했습니다.
핵심 포인트
- 실물-합성 루프를 통한 물리 기반 데이터 증강 프레임워크 제안
- 정책 속도 학습(PPL) 도입으로 시각적 환각 및 가치 과대평가 완화
- 로봇 조작 작업에서 훈련 단계 59% 단축 및 성공률 28% 향상
- 세계 모델의 시각적 충실도(PSNR, SSIM)를 크게 개선
강화학습 (RL)은 로봇이 시연 (demonstration)에서 관찰된 상태를 넘어 시행착오 (trial-and-error) 상호작용을 통해 개선될 수 있도록 함으로써, 모방 학습 (IL)의 시연 범위 제한 문제를 극복할 수 있습니다. 그러나 실제 로봇에 RL을 배포하는 것은 높은 상호작용 비용으로 인해 여전히 제약을 받는데, 이는 각 물리적 롤아웃 (rollout)이 비용이 많이 들고 단 하나의 실현된 행동-결과 경로만을 반영하기 때문입니다. 이러한 과제를 해결하기 위해, 우리는 물리적 롤아웃, 세계 모델 (world-model) 생성, 그리고 정책 (policy) 개선 사이의 실물-합성 루프 (real-synthetic loop)를 완성하는 실물 로봇 RL을 위한 물리 기반 데이터 증강 프레임워크인 WorldSample을 제안합니다. 실제 롤아웃에 기반하여, WorldSample은 사후 학습된 (post-trained) 세계 모델을 통해 고충실도 (high-fidelity) 합성 전이 (synthetic transitions)를 생성하며, 이는 시각적 환각 (visual hallucination)을 크게 낮춥니다. 구체적으로, WorldSample은 이러한 전이들을 단순히 실제 세계의 경험으로 사용하는 대신, 샘플 선택 및 스케줄링을 통해 훈련 과정을 조절하는 정책 속도 학습 (Policy-Paced Learning, PPL)을 도입하여, 유용한 증강과 가치 과대평가 (value overestimation) 사이의 균형을 맞추고 환각으로 인한 노이즈를 완화합니다. 접촉이 빈번하고 정밀한 작업이 포함된 로봇 조작 (robot manipulation) 작업에 대한 실험 결과, WorldSample은 베이스라인 대비 훈련 단계를 59% 줄이면서 정책 성공률을 28% 향상시키는 것을 보여주었습니다. 또한, WorldSample은 시연 데이터만을 사용한 사후 학습 대비 세계 모델의 시각적 충실도를 PSNR 기준 19.4dB, SSIM 기준 0.47 향상시켰으며, 이는 정책과 세계 모델 성능 모두에 있어 실물-합성 루프의 효과를 입증합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기