신뢰 영역 Q-Adjoint Matching (Trust Region Q Adjoint Matching)
요약
본 논문은 오프-폴리시 강화학습의 불안정성을 해결하기 위해 Trust Region Q-Adjoint Matching(TRQAM) 알고리즘을 제안합니다. 투영된 이중 하강을 통해 경로 공간 KL을 적응적으로 제어함으로써, 크리틱 오류로 인한 모델 붕괴를 방지하고 안정적인 미세 조정을 달성합니다.
핵심 포인트
- QAM의 크리틱 오류 증폭 및 모델 붕괴 문제 해결
- 투영된 이중 하강을 통한 경로 공간 KL의 적응적 제어
- SOC 역학 내 신뢰 영역 파라미터 λ의 최적화 이론 제시
- OGBench 50개 태스크에서 기존 기술 대비 압도적 성능 입증
- 오프라인 RL 성공률을 기존 46%에서 68%로 크게 향상
사전 학습된 플로우 정책 (flow policies)의 오프-폴리시 강화학습 (off-policy reinforcement learning)은 다단계 샘플링 과정에서 발생하는 최적화의 불안정성으로 인해 여전히 어려운 과제로 남아 있습니다. 최근 Adjoint Matching을 이용한 Q-러닝 (Q-learning with Adjoint Matching, QAM)은 학습된 크리틱 (critic)을 사용하여 메모리리스 확률적 최적 제어 (memoryless stochastic optimal control, SOC) 문제로 재정의함으로써 이 문제를 해결했습니다. 그러나 QAM은 크리틱 가이드 개선 (critic-guided improvement)의 근본적인 취약성을 물려받았습니다. 즉, 크리틱의 상태가 불량할 때 작은 크리틱 오류가 증폭되어 종종 모델 붕괴 (model collapse)로 이어집니다. 본 논문은 투영된 이중 하강 (projected dual descent)을 통해 사전 학습된 플로우 정책의 경로 공간 KL (path-space KL)을 적응적으로 제어하는 안정적인 오프-폴리시 미세 조정 (off-policy fine-tuning) 알고리즘인 Trust Region Q-Adjoint Matching (TRQAM)을 소개합니다. 구체적으로, 우리는 SOC 역학 (SOC dynamics) 내의 신뢰 영역 파라미터 $λ$를 최적화하며, 경로 공간 KL이 $λ$의 폐쇄형 함수 (closed-form function)로 표현될 수 있음을 이론적으로 보여줍니다. 결과적으로, 우리의 방법은 사전 학습된 플로우 정책으로부터의 정확한 편차를 정밀하게 제어하여 안정적인 오프-폴리시 RL을 달성할 수 있습니다. 50개의 OGBench 태스크에 대한 실험을 통해, TRQAM은 오프라인 RL (offline RL)과 오프라인-투-온라인 RL (offline-to-online RL) 모두에서 기존 기술들을 일관되게 능가합니다. 특히, TRQAM은 오프라인 RL에서 68%의 전체 성공률을 달성하였으며, 이는 가장 강력한 베이스라인인 46%를 실질적으로 개선한 수치입니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기