본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 14. 06:00

태스크 불가지론적 (Task-Agnostic) 월드 모델에서의 VLA 강화 학습

요약

본 논문은 월드 모델 내에서 강화 학습(RL)을 통해 Vision-Language-Action (VLA) 모델을 사후 학습시키는 방법을 다루며, 기존 방법론들이 태스크 특정적 데이터에 의존하여 확장성 문제가 있다는 점을 지적합니다. 이를 해결하기 위해, 연구진은 다운스트림 태스크 의존성으로부터 완전히 분리된 새로운 패러다임인 RAW-Dream을 제안했습니다. RAW-Dream은 다양한 태스크 프리 행동으로 사전 학습된 월드 모델과 기성 VLM을 활용하여, 제로샷 상상(Zero-shot imagination) 내에서 어떤 새로운 태스크에도 즉시 적응할 수 있는 Task-agnostic VLA를 구현합니다.

핵심 포인트

  • RAW-Dream은 다운스트림 태스크 의존성을 제거하고 월드 모델 학습을 완전히 분리하는 새로운 패러다임을 제시합니다.
  • Task-agnostic World Models와 기성 Vision-Language Model (VLM)을 결합하여 제로샷(Zero-shot)으로 새로운 태스크에 즉시 적응할 수 있습니다.
  • 월드 모델의 환각 현상을 완화하기 위해 이중 노이즈 검증(Dual-noise verification) 메커니즘을 도입했습니다.
  • 제안된 방법은 일반화된 물리적 사전 지식이 비용이 많이 드는 태스크 의존적 데이터를 효과적으로 대체할 수 있음을 입증합니다.

학습된 월드 모델 (World Models) 내에서 강화 학습 (RL)을 통해 사후 학습 (Post-training) 시키는 Vision-Language-Action (VLA) 모델은 비용이 많이 드는 실제 환경과의 상호작용 없이도 새로운 태스크에 적응할 수 있는 효과적인 전략으로 부상했습니다. 그러나 상상된 궤적 (Imagined trajectories)을 사용하는 것이 정책 (Policy) 학습의 샘플 복잡도 (Sample complexity)를 줄여주기는 하지만, 기존 방법론들은 여전히 월드 모델과 보상 모델 (Reward models)을 미세 조정 (Fine-tune)하기 위해 태스크 특정적 (Task-specific) 데이터에 크게 의존하고 있으며, 이는 본질적으로 보지 못한 태스크에 대한 확장성 (Scalability)을 제한합니다. 이를 극복하기 위해, 우리는 월드 모델과 보상 모델이 제로샷 추론 (Zero-shot inference)을 가능하게 하는 전이 가능한 물리적 사전 지식 (Transferable physical priors)을 포착해야 한다고 주장합니다. 우리는 월드 모델 학습을 다운스트림 태스크 의존성으로부터 완전히 분리하는 새로운 패러다임인 RAW-Dream (Reinforcing VLAs in task-Agnostic World Dreams)을 제안합니다. RAW-Dream은 미래의 롤아웃 (Rollouts)을 예측하기 위해 다양한 태스크 프리 (Task-free) 행동으로 사전 학습된 월드 모델을 활용하며, 보상 생성을 위해 기성 Vision-Language Model (VLM)을 사용합니다. 두 구성 요소 모두 태스크 불가지론적 (Task-agnostic)이기 때문에, VLA는 이 제로샷 상상 (Zero-shot imagination) 내에서 완전히 새로운 어떤 태스크에 대해서도 즉시 미세 조정될 수 있습니다. 나아가, 월드 모델의 환각 (Hallucinations) 현상을 완화하기 위해, 우리는 신뢰할 수 없는 롤아웃을 걸러내는 이중 노이즈 검증 (Dual-noise verification) 메커니즘을 도입합니다. 시뮬레이션 및 실제 환경 전반에 걸친 광범위한 실험은 일관된 성능 향상을 입증하며, 일반화된 물리적 사전 지식이 비용이 많이 드는 태스크 의존적 데이터를 효과적으로 대체할 수 있음을 증명하고, VLA 적응을 위한 매우 확장 가능한 로드맵을 제공합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0