arXiv논문2026. 05. 21. 12:15

행동 일관적 심층 강화학습 (Behavior-Consistent Deep Reinforcement Learning)

요약

본 연구는 강화학습 훈련 과정에서 발생하는 높은 분산과 실행 간 정책 발산 문제를 해결하기 위한 '행동 일관적 강화학습' 방법론을 제안합니다. 최대 엔트로피 강화학습의 메커니즘을 활용하여, $Q$-함수의 불일치를 기반으로 상태 의존적 온도 스케줄인 QED(Q-value Expectile Disagreement)를 도입함으로써 성능 저하 없이 실행 간 정책 발산을 획기적으로 줄였습니다.

핵심 포인트

강화학습 훈련 실행 간의 높은 분산과 정책 발산 문제를 정형화하여 정의함
최대 엔트로피 강화학습이 실행 간 행동 발산을 제어할 수 있는 직접적인 메커니즘을 제공함을 확인
단순한 엔트로피 증가는 오프-정책 오차를 증폭시키고 최적화를 저해할 수 있는 부작용이 있음
Double-critic 불일치를 활용한 QED(Q-value Expectile Disagreement)를 통해 실행 간 발산을 두 자릿수(two orders of magnitude) 감소시킴
연속 제어 작업 실험을 통해 리턴 분산을 낮추면서도 샘플 효율성을 유지함을 입증

강화학습 (RL)은 종종 훈련 실행(training runs)에 따라 높은 분산 (variance)을 보이며, 이는 신뢰할 수 없는 성능으로 이어져 실제 환경에 배포하는 데 큰 어려움을 초래합니다. 본 연구에서는 훈련 실행 간에 높은 성능을 유지하면서도 분포적으로 유사한 정책 (policy)을 얻는 것을 목표로 하는 '행동 일관적 강화학습 (behavior-consistent RL)' 문제를 정형화함으로써, 실행 간 정책 발산 (cross-run policy divergence) 문제를 해결합니다. 우리의 핵심 관찰 결과는 최대 엔트로피 강화학습 (maximum-entropy RL)이 실행들을 공통된 (균등한) 사전 확률 (prior)에 고정함으로써 행동 발산 (behavioral divergence)을 제어할 수 있는 직접적인 메커니즘을 제공한다는 것입니다. 우리는 Boltzmann 정책 (Boltzmann policies)의 경우, $Q$-함수 불일치 (disagreement)에 비례하는 온도를 선택하면 유도된 정책들 사이의 쌍별 KL 발산 (pairwise KL divergence)을 제한할 수 있음을 증명합니다. 그러나 엔트로피를 단순히 높이는 것은 오프-정책 오차 (off-policy error)를 증폭시키는 동시에 정책 최적화 (policy optimization)를 저해할 수 있음을 보여줍니다. 이러한 관찰을 바탕으로, 우리는 Double-critic 불일치를 실행 간 불일치에 대한 단일 실행 프록시 (single-run proxy)로 사용하는 상태 의존적 온도 스케줄인 $Q$-value Expectile Disagreement (QED)를 제안합니다. 실험적으로, 우리는 18개의 연속 제어 (continuous-control) 작업에 걸쳐 QED가 성능을 희생하지 않으면서도 실행 간 발산을 두 자릿수(two orders of magnitude)만큼 줄이며, 적절한 샘플 효율성 (sample-efficiency) 비용으로 리턴 분산 (return variance)을 상당히 감소시킨다는 것을 입증합니다.

AI 자동 생성 콘텐츠

원문 바로가기

행동 일관적 심층 강화학습 (Behavior-Consistent Deep Reinforcement Learning)

요약

핵심 포인트

댓글