태스크 불가지론적 (Task-Agnostic) 월드 모델에서의 VLA 강화 학습

학습된 월드 모델 (World Models) 내에서 강화 학습 (RL)을 통해 사후 학습 (Post-training) 시키는 Vision-Language-Action (VLA) 모델은 비용이 많이 드는 실제 환경과의 상호작용 없이도 새로운 태스크에 적응할 수 있는 효과적인 전략으로 부상했습니다. 그러나 상상된 궤적 (Imagined trajectories)을 사용하는 것이 정책 (Policy) 학습의 샘플 복잡도 (Sample complexity)를 줄여주기는 하지만, 기존 방법론들은 여전히 월드 모델과 보상 모델 (Reward models)을 미세 조정 (Fine-tune)하기 위해 태스크 특정적 (Task-specific) 데이터에 크게 의존하고 있으며, 이는 본질적으로 보지 못한 태스크에 대한 확장성 (Scalability)을 제한합니다. 이를 극복하기 위해, 우리는 월드 모델과 보상 모델이 제로샷 추론 (Zero-shot inference)을 가능하게 하는 전이 가능한 물리적 사전 지식 (Transferable physical priors)을 포착해야 한다고 주장합니다. 우리는 월드 모델 학습을 다운스트림 태스크 의존성으로부터 완전히 분리하는 새로운 패러다임인 RAW-Dream (Reinforcing VLAs in task-Agnostic World Dreams)을 제안합니다. RAW-Dream은 미래의 롤아웃 (Rollouts)을 예측하기 위해 다양한 태스크 프리 (Task-free) 행동으로 사전 학습된 월드 모델을 활용하며, 보상 생성을 위해 기성 Vision-Language Model (VLM)을 사용합니다. 두 구성 요소 모두 태스크 불가지론적 (Task-agnostic)이기 때문에, VLA는 이 제로샷 상상 (Zero-shot imagination) 내에서 완전히 새로운 어떤 태스크에 대해서도 즉시 미세 조정될 수 있습니다. 나아가, 월드 모델의 환각 (Hallucinations) 현상을 완화하기 위해, 우리는 신뢰할 수 없는 롤아웃을 걸러내는 이중 노이즈 검증 (Dual-noise verification) 메커니즘을 도입합니다. 시뮬레이션 및 실제 환경 전반에 걸친 광범위한 실험은 일관된 성능 향상을 입증하며, 일반화된 물리적 사전 지식이 비용이 많이 드는 태스크 의존적 데이터를 효과적으로 대체할 수 있음을 증명하고, VLA 적응을 위한 매우 확장 가능한 로드맵을 제공합니다.

Insights

태스크 불가지론적 (Task-Agnostic) 월드 모델에서의 VLA 강화 학습

요약

핵심 포인트

댓글

Firecrawl의 새로운 오픈소스 도구 pdf-inspector 출시

모든 스타트업은 'what_the_market_is_telling_us.md'라는 일일 마크다운(markdown) 파일을 가져야 합니다

GPT-5.6 Luna 가격이 3주 만에 80% 하락했습니다. 이것이 에이전트 스택에 초래할 수 있는 가격 책정 버그에 대해 알아보겠습니다.

7월 21일 GPT Image 테스트 이후 — 단 하나의 아름다운 프레임이 시리즈를 위한 proof-sheet을 대체할 수는 없다

Firecrawl의 새로운 오픈소스 도구 pdf-inspector 출시

모든 스타트업은 'what_the_market_is_telling_us.md'라는 일일 마크다운(markdown) 파일을 가져야 합니다

GPT-5.6 Luna 가격이 3주 만에 80% 하락했습니다. 이것이 에이전트 스택에 초래할 수 있는 가격 책정 버그에 대해 알아보겠습니다.

7월 21일 GPT Image 테스트 이후 — 단 하나의 아름다운 프레임이 시리즈를 위한 proof-sheet을 대체할 수는 없다