arXiv논문2026. 05. 19. 13:20

COOPO: 순환적 오프라인-온라인 정책 최적화 알고리즘

요약

COOPO는 오프라인 강화학습의 데이터 한계와 온라인 강화학습의 과도한 상호작용 문제를 동시에 해결하기 위한 순환적 정책 최적화 프레임워크입니다. KL 정규화 기반의 오프라인 업데이트와 온라인 미세 조정을 반복함으로써, 분포 드리프트와 파괴적 망각 문제를 방지하고 데이터셋 재사용을 극대화합니다. 이를 통해 온라인 샘플 효율성을 높이면서도 최종 성능을 향상시키는 효과를 입증했습니다.

핵심 포인트

오프라인 학습과 온라인 미세 조정을 반복하는 순환적(Cyclic) 구조를 통해 분포 드리프트 및 망각 문제 해결
KL 정규화된 어드밴티지 가중 오프라인 업데이트를 사용하여 정책을 데이터셋에 안정적으로 고정
표준 커버리지 가정 하에서 이론적인 단조적 개선(monotonic improvement) 보장
D4RL 벤치마크 결과, 기존 하이브리드 방식 대비 온라인 상호작용 감소 및 최종 리턴 향상 확인
다양한 오프라인 알고리즘 및 온라인 옵티마이저에 대해 높은 견고함 유지

오프라인 강화학습 (Offline reinforcement learning)은 정적인 데이터셋의 한계로 인해 분포 변화 (distributional shift) 및 제한된 성능 문제로 어려움을 겪는 반면, 온라인 강화학습 (online RL)은 과도한 환경 상호작용을 요구합니다. 최근 등장한 하이브리드 오프라인-투-온라인 (offline-to-online) 방법론들은 이 두 영역을 연결하지만, 전환 과정에서의 분포 드리프트 (distribution drift)와 오프라인 지식의 파괴적 망각 (catastrophic forgetting) 문제로 고통받고 있습니다. 우리는 제약 조건이 있는 오프라인 학습과 온라인 미세 조정 (fine-tuning) 사이를 반복적으로 순환하는 일반화된 프레임워크인 COOPO (Cyclic Offline-Online Policy Optimization)를 소개합니다. 각 사이클은 먼저 분포 변화를 최소화하기 위해 KL 정규화된 어드밴티지 가중 오프라인 업데이트 (KL-regularized advantage-weighted offline updates)를 통해 정책을 데이터셋에 고정(anchor)시킨 다음, 안정적인 탐색을 위해 임의의 정책 최적화 (policy optimization)를 사용하여 온라인으로 미세 조정합니다. 결정적으로, 주기적으로 오프라인 학습으로 돌아가는 방식은 데이터셋 재사용을 극대화하는 동시에 망각과 드리프트를 제거합니다. 이러한 순환적 동작은 온라인 환경 상호작용을 줄이는 데에도 도움이 됩니다. 이론적으로 COOPO는 표준 커버리지 가정 (coverage assumptions) 하에서 단조적 개선 (monotonic improvement)을 보장하며, 순수 온라인 RL을 능가하는 더 나은 온라인 샘플 효율성 (sample efficiency)을 달성합니다. 광범위한 D4RL 벤치마크를 통해 COOPO가 최신 하이브리드 방식 대비 온라인 상호작용을 줄이면서도 최종 리턴 (final returns)을 향상시키며, 다양한 오프라인 알고리즘 및 온라인 옵티마이저 (optimizers) 전반에 걸쳐 견고함 (robustness)을 유지함을 입증했습니다. 이러한 루프 형태의 시너지는 적응형 강화학습 (adaptive RL)을 위한 새로운 효율성 및 성능 표준을 제시합니다.

AI 자동 생성 콘텐츠

원문 바로가기

COOPO: 순환적 오프라인-온라인 정책 최적화 알고리즘

요약

핵심 포인트

댓글