arXiv논문2026. 06. 09. 11:10

밀도 수송(Density Transport)을 이용한 플로우 매칭(Flow-Matching) 정책을 위한 강화학습 (RL)

요약

연속 제어 문제에서 플로우 매칭(Flow-Matching) 정책을 미세 조정하기 위한 새로운 온라인 강화학습 알고리즘 RLDT를 제안합니다. 밀도 수송(Density Transport) 개념을 활용하여 보상이 높은 영역으로 행동 밀도를 이동시키며, 기존 방식의 편향된 그래디언트 문제를 해결합니다.

핵심 포인트

밀도 수송을 통한 정책 개선으로 다중 모드 모델링 능력 유지
SVGD를 사용하여 최대 엔트로피 RL 목적 함수로부터 수송장 구축
기대 타겟 추정으로 불안정한 시간 기반 역전파 문제 극복
로봇 조작 등 다양한 연속 제어 작업에서 우수한 성능 입증

우리는 연속 제어(continuous-control) 문제에서 플로우 매칭(flow-matching) 정책을 미세 조정(fine-tuning)하기 위한 온라인 강화학습 (RL) 알고리즘을 제시합니다. 우리의 핵심 통찰은 RL 기반의 정책 개선(policy improvement)을 높은 보상(reward)이 있는 영역으로 행동 밀도(action densities)를 수송(transport)하는 것으로 간주하는 것이며, 이는 플로우 매칭 모델의 수송 공식화(transport formulation)와 자연스럽게 일치합니다. 기존 방법들은 현재 정책 분포나 최적 정책 분포를 근사하거나 증류(distillation)에 의존하는데, 이는 편향된 그래디언트(biased gradients)를 유발하거나 다중 모드 모델링(multimodal modeling) 능력을 희생시킵니다. 이와 대조적으로, 우리가 extit{RLDT}라고 명명한 밀도 수송(Density Transport)을 이용한 RL 방식은 Stein Variational Gradient Descent (SVGD)를 사용하여 최대 엔트로피 RL 목적 함수(maximum-entropy RL objective)로부터 수송장(transport field)을 구축합니다. 그런 다음, 사전 학습된 플로우 매칭 정책이 이 수송장에 정렬되도록 미세 조정합니다. 이 정렬 목적 함수를 통한 학습은 플로우 매칭 정책이 다단계 프로세스를 통해 행동을 생성하기 때문에 직접적인 그래디언트 기반 최적화(gradient-based optimization)가 어려워 까다롭습니다. 이러한 문제를 극복하고 학습을 안정화하기 위해, 우리는 기대 타겟 추정(expected-target estimation)을 통해 중간 디노이징(denoising) 단계로부터 정책 행동을 근사합니다. 이를 통해 수송장 업데이트가 불안정한 시간 기반 역전파(backpropagation through time) 없이 네트워크 파라미터로 전파될 수 있습니다. 실험 결과, RLDT는 보상 품질과 수렴 속도 면에서 경쟁력 있는 베이스라인(baselines)보다 뛰어난 성능을 보임을 입증했습니다. 이러한 성능은 조밀한 보상(dense rewards)과 희소한 보상(sparse rewards)을 모두 포함하며, 상태(state) 및 시각(vision) 기반의 장기 로봇 조작(long-horizon robot manipulation)을 아우르는 다양한 연속 제어 작업 전반에서 유지됩니다. 프로젝트 웹페이지는
ef{https://rpfey.github.io/rldt/}입니다.

AI 자동 생성 콘텐츠

원문 바로가기

밀도 수송(Density Transport)을 이용한 플로우 매칭(Flow-Matching) 정책을 위한 강화학습 (RL)

요약

핵심 포인트

댓글