Valdi: 가치 확산 월드 모델 (Value Diffusion World Models)

월드 모델 (World models)은 모델 예측 제어 (Model Predictive Control, MPC)를 가능하게 할 수 있지만, 이를 위해서는 온라인 사용에 충분히 빠르면서도 불확실한 미래를 표현할 수 있을 만큼 표현력이 풍부한 역학 예측 (dynamics prediction)이 필요합니다. 확산 모델 (Diffusion models)은 불확실한 역학을 모델링하기 위한 자연스러운 메커니즘을 제공하지만, 반복적인 추론 절차로 인해 저지연 잠재 계획 (low-latency latent planning)에 사용하기 어렵습니다. 우리는 MPC를 위한 엔드투엔드 (end-to-end) 온라인 학습과 잠재 확산 역학 모델 (latent diffusion dynamics model)을 결합하여 가치 확산 월드 모델 (Value Diffusion World Models, Valdi)로 이 간극을 메웁니다. CarRacing 환경에서의 예비 실험을 통해, 학습과 추론 모두에서 단일 확산 단계 (single diffusion step)를 사용하는 Valdi가 결정론적 MLP 베이스라인 (deterministic MLP baseline)과 대등한 성능을 보임을 입증합니다. 우리의 실험은 이러한 설정에서 예측의 다중 모드성 (predictive multimodality)과 제어 성능 사이의 트레이드오프 (trade-off)를 드러냅니다. 코드는 https://github.com/Kit115/ValueDiffusionWorldModels 에서 확인할 수 있습니다.

Insights

Valdi: 가치 확산 월드 모델 (Value Diffusion World Models)

요약

핵심 포인트

댓글

런타임 Helios-를 통해 의도가 명시적으로 강제되는 Prehook Gated Execution Policy Layer: Akashic은 각

Show HN: Meow – 네 번째이자 마지막 JavaScript 런타임 및 툴체인

더 많은 재배 면적과 재고량, 제품 약세에도 불구하고 상승세를 보이는 대두

USDA 보고서 이후 옥수수 강세론자들의 영향력 확대, 곡물 재고 데이터가 낙관적 전망 뒷받침

런타임 Helios-를 통해 의도가 명시적으로 강제되는 Prehook Gated Execution Policy Layer: Akashic은 각

Show HN: Meow – 네 번째이자 마지막 JavaScript 런타임 및 툴체인

더 많은 재배 면적과 재고량, 제품 약세에도 불구하고 상승세를 보이는 대두

USDA 보고서 이후 옥수수 강세론자들의 영향력 확대, 곡물 재고 데이터가 낙관적 전망 뒷받침