arXiv논문2026. 06. 17. 11:35

역전 Q-러닝 (Reversal Q-Learning)

요약

Flow matching 기술을 활용하여 오프라인 강화학습을 수행하는 새로운 알고리즘인 Reversal Q-learning(RQL)을 제안합니다. Flow 정제 단계를 MDP의 행동으로 취급하는 확장된 프레임워크를 통해 기존 flow 기반 RL의 한계를 극복했습니다.

핵심 포인트

Flow 정제 단계를 별도 행동으로 취급하는 확장된 MDP 프레임워크 제안
Flow 역전을 통해 사전 데이터와 호환되는 가상 온-폴리시 궤적 생성
편향-분산 감소 기술을 적용하여 지평선의 저주 문제 완화
시간 기반 역전파 문제 해결 및 표현력이 풍부한 전체 flow 정책 학습
50개 로봇 작업 실험에서 기존 SOTA 알고리즘 대비 우수한 성능 입증

Flow matching과 같은 반복적 생성 모델링 (Iterative generative modeling) 기술은 효과적인 오프라인 강화학습 (Offline Reinforcement Learning (RL))을 위해 복잡한 행동을 모델링하는 강력한 도구를 제공합니다. 본 연구에서는 사전 데이터 (Prior data)를 기반으로 flow 정책 (Flow policy)을 학습하는 새로운 오프-폴리시 (Off-policy) RL 알고리즘을 제안합니다. 우리의 아이디어는 개별 flow 정제 단계 (Flow refinement steps)를 MDP 내의 별도 행동 (Actions)으로 취급하는 "확장된" 마르코프 결정 과정 (Markov Decision Process (MDP)) 프레임워크에서 시작됩니다. 이 프레임워크 내에서 오프-폴리시 RL을 가능하게 하기 위해 우리는 두 가지 기술을 적용합니다. 첫째, 이 프레임워크를 사전 데이터와 호환되도록 하기 위해 (flow를 "역전"함으로써) 가상 온-폴리시 (On-policy) 궤적 (Trajectories)을 생성하며, 둘째, 오프-폴리시 RL에서의 지평선의 저주 (Curse of horizon)를 완화하기 위해 편향-분산 감소 (Bias-and-variance reduction) 기술을 적용합니다. 우리는 이 결과로 도출된 알고리즘을 Reversal Q-learning (RQL)이라고 부릅니다. RQL은 이전의 flow 기반 RL 방법들에 비해 몇 가지 장점을 가집니다. 즉, 시간 기반 역전파 (Backpropagation through time)의 문제를 겪지 않으며, 학습된 가치 함수 (Value function)를 더 잘 활용하고, 표현력이 풍부한 전체 flow 정책을 직접 학습합니다. 50개의 도전적인 시뮬레이션 로봇 작업에 대한 실험을 통해, 우리는 RQL이 최신(State-of-the-art) flow 기반 오프라인 RL 알고리즘들과 비교하여 가장 우수한 평균 오프라인 RL 성능을 보임을 입증합니다.

AI 자동 생성 콘텐츠

원문 바로가기

역전 Q-러닝 (Reversal Q-Learning)

요약

핵심 포인트

댓글