arXiv논문2026. 05. 07. 12:50

오프라인에서 온라인 강화학습 (O2O-RL) 에서 상호작용 예산 하의 적응형 정책 선택 및 미세 조정

요약

본 논문은 오프라인에서 온라인 강화학습(O2O-RL)의 한계를 극복하기 위해, 제한된 온라인 상호작용 예산 하에서 정책 선택 및 미세 조정을 위한 적응형 접근 방식을 제안합니다. 기존 O2O-RL 방식은 신뢰도가 낮은 오프-정책 평가(OPE)에 의존하거나, 과도한 온라인 상호작용을 요구하는 문제가 있었습니다. 본 연구는 먼저 다양한 후보 정책을 학습하고 OPE로 초기 성능을 추정한 후, 상한 신뢰 구간(UCB) 접근법을 활용하여 예측된 성능에 기반해 가장 효율적으로 정책을 선택하고 미세 조정함으로써 실제 환경에서의 적용 가능성을 높였습니다.

핵심 포인트

O2O-RL은 오프라인 학습과 제한적인 온라인 미세 조정을 결합하는 방식이다.
기존 O2O-RL의 문제점: OPE는 신뢰도가 낮고, 단일 정책 선택 및 모든 후보를 포괄적으로 미세 조정하기 어렵다.
제안된 해결책은 상한 신뢰 구간(UCB) 접근법을 사용하여 온라인 상호작용 예산을 효율적으로 관리한다.
이 적응형 접근 방식은 초기 성능 추정치와 예측 기반의 정책 선택/미세 조정을 결합하여 실질적인 개선 효과를 입증했다.

오프라인에서 온라인 강화학습 (Offline-to-Online Reinforcement Learning, O2O-RL) 은 사전에 수집된 데이터셋을 사용하여 안전하게 오프라인으로 정책을 학습한 후, 제한된 온라인 상호작용을 통해 추가적으로 미세 조정을 수행하는 방식입니다. 일반적인 O2O-RL 파이프라인에서는 오프라인 RL 로 학습된 후보 정책들이 오프-policy 평가 (Off-Policy Evaluation, OPE) 또는 온라인 평가 (Online Evaluation, OE) 를 통해 평가됩니다. 그 후 가장 높은 추정 가치를 가진 정책이 배포되고 지속적으로 미세 조정됩니다. 그러나 이 설정은 두 가지 주요 문제를 가집니다. 첫째, OPE 는 신뢰할 수 없으며 해당 추정치만으로 정책을 배포하는 것은 위험할 수 있습니다. 반면 OE 는 상당한 온라인 상호작용을 통해 실행 가능한 정책을 식별할 수 있으며, 이는 미세 조정에 사용할 수 있습니다. 둘째--그리고 더 중요하게--사전 배포된 정책이 배포 후 미세 조정으로 개선될지 여부를 사전에 결정하는 것도 종종 불가능하며, 특히 비정적 (non-stationary) 환경에서는 더욱 그렇습니다. 결과적으로 단일 배포 정책을 선택하는 절차는 많은 실제 세계 설정에서 비현실적입니다. 또한 모든 후보를 포괄적으로 미세 조정하는 단순한 해결책은 상호작용 예산 제약 조건을 위반할 수 있으며, 이는 또한 불가능합니다. 본 논문에서는 O2O-RL 에서 온라인 상호작용 예산 하의 정책 선택 및 미세 조정을 위한 새로운 적응형 접근 방식을 제안합니다. 표준 파이프라인에 따라 우리는 먼저 서로 다른 오프라인 RL 알고리즘과 하이퍼파라미터를 사용하여 후보 정책 집합을 학습한 후, 초기 성능 추정치를 얻기 위해 OPE 를 수행합니다. 그 다음 상한 신뢰 구간 (Upper-Confidence-Bound) 접근법을 통해 예측된 성능에 기반하여 적응적으로 정책을 선택하고 미세 조정함으로써 온라인 상호작용의 효율적인 사용을 실현합니다. 우리는 다양한 벤치마크를 통해 본 접근 방식이 O2O-RL 베이스라인을 개선함을 입증했습니다.

AI 자동 생성 콘텐츠

원문 바로가기

오프라인에서 온라인 강화학습 (O2O-RL) 에서 상호작용 예산 하의 적응형 정책 선택 및 미세 조정

요약

핵심 포인트

댓글