arXiv논문2026. 05. 21. 11:53

Stochastic MeanFlow Policies: 엔트로피 Mirror Descent를 이용한 단일 단계 생성 제어

요약

본 논문은 가우시안 정책의 다루기 쉬운 엔트로피 특성과 생성형 정책의 높은 표현력을 결합한 Stochastic MeanFlow Policies(SMFP)를 제안합니다. SMFP는 MeanFlow 변환을 통해 가우시안 노이즈를 행동으로 매핑하여, 단일 단계 추론만으로도 다중 모드 분포를 효과적으로 처리하며 안정적인 오프-폴리시 미러 디센트 학습을 지원합니다. MuJoCo 벤치마크 실험 결과, 기존 가우시안 및 생성형 베이스라인 대비 뛰어난 성능과 효율성을 입증했습니다.

핵심 포인트

가우시안 정책의 낮은 표현력과 생성형 정책의 복잡한 샘플링 문제를 동시에 해결하는 SMFP 제안
MeanFlow 변환을 활용하여 다루기 쉬운 엔트로피 대리 함수를 생성하고 단일 단계 생성 제어 가능
엔트로피 정규화와 미러 디센트(Mirror Descent)를 결합하여 탐색 성능과 정책 개선의 안정성 확보
MuJoCo 벤치마크 7종에서 기존 모델 대비 높은 추론 효율성 및 성능 향상 확인

온라인 오프-폴리시 강화학습 (Off-policy RL)은 정책 클래스 (Policy class)와 업데이트 규칙 (Update rule)이라는 두 가지 결합된 선택에 의해 결정됩니다. 가우시안 정책 (Gaussian policies)은 속도가 빠르고 다루기 쉬운 엔트로피 (Entropy)를 가지지만, 다중 모드 행동 분포 (Multimodal action distributions)를 처리하는 데 어려움이 있습니다. 생성 정책 (Generative policies)은 표현력이 더 뛰어나지만, 종종 반복적인 샘플링 (Iterative sampling)이 필요하거나 다루기 쉬운 엔트로피 추정치가 부족합니다. 최적화 측면에서, SAC 스타일의 소프트 정책 개선 (Soft policy improvement)과 미러 디센트 (Mirror Descent, MD)는 서로 다른 KL 발산 (KL divergences)을 최소화하는 것으로 볼 수 있습니다. 전자는 정책을 가치 유도 볼츠만 분포 (Value-induced Boltzmann distribution)로 이동시키는 반면, 후자는 각 업데이트를 이전 정책에 대해 정규화 (Regularise)합니다. 따라서 엔트로피 정규화 (Entropy regularisation)를 MD 제약 조건과 결합하는 것은 탐색 (Exploration)을 지원하면서 정책 개선을 안정화하기 때문에 매력적입니다. 그러나 그 결과로 나타나는 타겟은 다중 모드 (Multimodal)일 수 있으며, 단일 모드 가우시안 정책 (Unimodal Gaussian policies)으로는 제대로 맞추기 어렵습니다. 본 논문에서는 MeanFlow 변환을 통해 가우시안 노이즈 (Gaussian noise)를 행동 (Actions)으로 매핑하는 단일 단계 생성 정책 클래스인 Stochastic MeanFlow Policies (SMFP)를 제안합니다. 이러한 확률적 재매개변수화 (Stochastic reparameterisation)는 다루기 쉬운 엔트로피 대리 함수 (Entropy surrogate)를 생성하며, SMFP가 탐색적이면서도 안정적인 개선을 위한 통합된 목적 함수 하에 오프-폴리시 미러 디센트 (Off-policy mirror descent) 내에서 학습될 수 있도록 합니다. 7개의 MuJoCo 벤치마크 전반에 걸쳐, SMFP는 단일 단계 추론 효율성 (Single-step inference efficiency)을 유지하면서 가우시안 및 생성형 베이스라인 (Generative baselines)보다 성능을 향상시킵니다.

AI 자동 생성 콘텐츠

원문 바로가기

Stochastic MeanFlow Policies: 엔트로피 Mirror Descent를 이용한 단일 단계 생성 제어

요약

핵심 포인트

댓글