MODIP: 확산 정책 (Diffusion Policies)을 위한 효율적인 모델 기반 최적화
요약
확산 정책(Diffusion Policies)의 강화학습 미세 조정을 위한 새로운 프레임워크인 MODIP를 제안합니다. 세계 모델(World Model)과 MPC를 결합하여 BC의 안정성을 유지하면서도 정책 성능을 효과적으로 향상시킵니다.
핵심 포인트
- 확산 정책의 RL 미세 조정 난제를 해결하기 위한 MODIP 프레임워크 제안
- 세계 모델 내에서 MPC를 활용해 고품질 궤적을 생성하고 지도 학습 대상으로 사용
- 종단 상태 가치를 활용하여 MPC 계획 및 추론 시간 단축
- D4RL 및 RoboMimic 실험을 통해 기존 모델 기반 베이스라인 능가 입증
확산 정책 (Diffusion Policies, DPs)은 로봇 학습을 위한 표현력이 풍부한 정책 표현 방식으로 부상하였으며, 행동 복제 (Behavioral Cloning, BC)와 같은 모방 학습 (Imitation Learning) 방법과 함께 자주 사용됩니다. 그러나 이러한 성공은 주로 BC에 국한되어 왔으며, 행동이 다단계 디노이징 (Denoising) 과정을 통해 생성되기 때문에 직접적인 강화학습 (Reinforcement Learning, RL) 미세 조정 (Fine-tuning)은 여전히 어려운 과제로 남아 있습니다. 본 연구에서는 DPs의 오프라인-투-온라인 (Offline-to-Online) 미세 조정을 위한 프레임워크인 MODIP를 제안합니다. MODIP는 DPs에 RL을 직접 적용하는 대신, 세계 모델 (World Model, WM)을 활용하여 정책 적응을 유도함으로써 BC의 단순성과 안정성을 유지합니다. 우리는 WM 내에서 고품질의 궤적 (Trajectories)을 생성하기 위해 모델 예측 제어 (Model Predictive Control, MPC)를 활용하며, 이를 DP 미세 조정을 위한 지도 학습 대상 (Supervised Targets)으로 사용합니다. MPC 계획을 효율적으로 만들기 위해, MODIP는 정책 의존적인 상태-행동 가치 (State-action value) 대신 종단 상태 가치 (Terminal state value)를 사용하여 추론 시간을 단축합니다. 또한, MODIP는 정책 독립적인 TD 타겟 (TD targets)으로 크리틱 (Critics)을 학습시켜 학습 시간을 줄입니다. D4RL (MuJoCo, Kitchen) 및 RoboMimic 태스크에 대한 실험 결과, MODIP는 확산 정책을 BC 이상으로 향상시키며, 확산 정책 RL 미세 조정 방법 및 TD-MPC2와 같은 강력한 모델 기반 베이스라인 (Baselines)과 경쟁하거나 이를 능가함을 보여줍니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기