Valdi: 가치 확산 월드 모델 (Value Diffusion World Models)
요약
Valdi는 MPC를 위한 엔드투엔드 온라인 학습과 잠재 확산 역학 모델을 결합한 새로운 월드 모델입니다. 확산 모델의 높은 표현력과 단일 확산 단계를 통한 저지연 추론을 결합하여, CarRacing 환경에서 결정론적 MLP와 대등한 성능을 입증했습니다.
핵심 포인트
- 확산 모델을 활용하여 불확실한 미래 역학을 효과적으로 모델링
- 단일 확산 단계를 사용하여 저지연 잠재 계획(low-latency latent planning) 실현
- CarRacing 환경 실험을 통해 예측의 다중 모드성과 제어 성능 간의 관계 규명
- MPC를 위한 엔드투엔드 온라인 학습 프레임워크 제안
월드 모델 (World models)은 모델 예측 제어 (Model Predictive Control, MPC)를 가능하게 할 수 있지만, 이를 위해서는 온라인 사용에 충분히 빠르면서도 불확실한 미래를 표현할 수 있을 만큼 표현력이 풍부한 역학 예측 (dynamics prediction)이 필요합니다. 확산 모델 (Diffusion models)은 불확실한 역학을 모델링하기 위한 자연스러운 메커니즘을 제공하지만, 반복적인 추론 절차로 인해 저지연 잠재 계획 (low-latency latent planning)에 사용하기 어렵습니다. 우리는 MPC를 위한 엔드투엔드 (end-to-end) 온라인 학습과 잠재 확산 역학 모델 (latent diffusion dynamics model)을 결합하여 가치 확산 월드 모델 (Value Diffusion World Models, Valdi)로 이 간극을 메웁니다. CarRacing 환경에서의 예비 실험을 통해, 학습과 추론 모두에서 단일 확산 단계 (single diffusion step)를 사용하는 Valdi가 결정론적 MLP 베이스라인 (deterministic MLP baseline)과 대등한 성능을 보임을 입증합니다. 우리의 실험은 이러한 설정에서 예측의 다중 모드성 (predictive multimodality)과 제어 성능 사이의 트레이드오프 (trade-off)를 드러냅니다. 코드는 https://github.com/Kit115/ValueDiffusionWorldModels 에서 확인할 수 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기