arXiv논문2026. 06. 10. 11:37

강화학습 (RL)에서 Flow 정책의 테스트 시간 경사 가이드 (Test-Time Gradient Guidance)

요약

본 논문은 확산 모델 및 Flow 모델 기반의 연속 제어 정책을 강화학습(RL)에 통합할 때 발생하는 불안정성 문제를 해결하기 위한 QGF(Q-Guided Flow) 알고리즘을 제안합니다. QGF는 사전 학습된 정책과 가치 함수를 활용하여 테스트 시간에만 가치 경사를 통해 행동을 유도함으로써, 추가적인 학습 없이도 높은 성능을 구현합니다.

핵심 포인트

테스트 시간에만 가치 경사를 적용하여 정책 개선
기존 RL의 학습 불안정성 및 확장성 문제 해결
고차원 행동 공간의 오프라인 RL 벤치마크에서 우수한 성능 입증
실행 비용이 저렴하며 최신 학습 시간 알고리즘과 경쟁 가능

확산 모델 (Diffusion models) 및 Flow 모델과 같이 표현력이 풍부한 연속 제어 정책 (Continuous control policies)은 시뮬레이션 및 실제 로봇 제어를 위한 모방 학습 (Imitation learning) 스케일링의 최근 발전을 뒷받침하는 중추 역할을 하고 있습니다. 이러한 모델들은 지도 학습 기반의 모방 학습 설정에서는 안정적으로 스케일링되는 것으로 알려져 있지만, 정책 개선을 위해 이를 강화학습 (RL) 파이프라인에 통합하는 것은 더 어려운 것으로 증명되었습니다. 이는 종종 특수한 학습 목적 함수를 요구하거나 디노이징 (Denoising) 과정을 통해 역전파 (Backpropagating)를 수행해야 하며, 이는 안정성 문제와 확장성 저하라는 잘 알려진 문제를 야기합니다.

본 논문에서는 안정적인 지도 학습 기반 정책 학습을 그대로 유지하면서, 테스트 시간 (Test time)에만 단순한 정책 개선 기법을 적용하는 것이 이러한 문제들을 우회할 수 있는 경쟁력 있는 대안이 될 수 있는지에 대한 문제를 연구합니다. 이를 위해 우리는 테스트 시간에만 완전히 정책 최적화를 수행하는 RL 알고리즘인 QGF (Q-Guided Flow)를 제안합니다. QGF는 참조 Flow 정책 (Reference flow policy, 표준 행동 복제 (Behavioral cloning) 목적 함수를 통해 사전 학습)과 가치 함수 비평가 (Value function critic)를 모두 사전 학습한 후, 테스트 시간에 가치 경사 (Value gradient)를 사용하여 추가적인 정책 학습 없이도 참조 정책이 더 높은 가치를 가진 행동을 생성하도록 유도하는 방식으로 작동합니다.

실험적으로 QGF는 고차원 행동 공간을 가진 단일 작업 및 목표 조건부 (Goal-conditioned) 오프라인 RL 벤치마크에서 기존의 테스트 시간 RL 방법들보다 우수한 성능을 보였으며, 실행 비용이 훨씬 저렴하면서도 최신 학습 시간 (Training-time) 알고리즘들과 경쟁할 만한 성능을 나타냈습니다. 또한, Actor-Critic 학습의 불안정성을 피함으로써 모델 크기에 따른 유리한 스케일링을 보여주며, 표현력이 풍부한 정책을 가진 실용적이고 효과적인 대안 RL 알고리즘을 제공합니다.

AI 자동 생성 콘텐츠

원문 바로가기

강화학습 (RL)에서 Flow 정책의 테스트 시간 경사 가이드 (Test-Time Gradient Guidance)

요약

핵심 포인트

댓글