arXiv논문2026. 05. 25. 16:47

모든 것을 한 번에 학습하는 목표 조건부 에이전트 (Goal-Conditioned Agents that Learn Everything All

요약

모든 목표를 한 번에 학습하는 LEO(Learning Everything all at Once) 방식을 제안합니다. 단일 네트워크 통과만으로 모든 목표에 대한 병렬 업데이트를 가능하게 하여, 기존 재라벨링 방식 대비 250배 이상의 속도 향상을 달성했습니다.

핵심 포인트

모든 목표에 대한 가치와 행동을 공동 출력하여 효율성 극대화
기존 재라벨링 방식 대비 250배 이상의 학습 속도 향상
Craftax 및 연속 제어 환경에서 뛰어난 성능 입증
교사 네트워크(Teacher Network)로 활용 시 성능 강화 가능

환경을 탐색하는 목표 조건부 강화학습 (Goal-conditioned reinforcement learning) 에이전트는 궤적 (trajectory) 전반에 걸쳐 풍부한 정보를 접하게 되지만, 명령된 목표 (commanded goal)에 대해서만 온-정책 (on-policy) 업데이트를 수행할 경우 이 정보의 대부분이 폐기됩니다. 각 전이 (transition)를 모든 목표에 대해 오프-정책 (off-policy) 학습에 사용하는 '모든 목표 학습 (All-goals learning)' 방식은 에이전트가 최대한의 정보를 추출할 수 있게 해주지만, 단순한 재라벨링 (relabelling) 방식을 사용할 경우 일반적으로 계산적으로 불가능합니다. 이는 모든 목표에 대한 가치 (values)와 행동 (actions)을 한 번에 공동으로 출력함으로써 극복할 수 있으며, 이를 통해 네트워크를 단 한 번 통과하는 것만으로 효율적이고 병렬적인 모든 목표 업데이트가 가능해집니다. 우리는 이 과정을 '모든 것을 한 번에 학습 (Learning Everything all at Once, LEO)'이라고 부릅니다. 우리는 이 접근 방식이 목표 조건부 Craftax에서 다른 방법들을 크게 능가하며, 연속 제어 (continuous control) 환경에서는 기존 베이스라인 (baselines)들과 경쟁할 만한 성능을 보이면서도, 모든 목표 재라벨링 (all-goals relabelling) 대비 250배 이상의 속도 향상을 달성함을 보여줍니다. 이어 우리는 이 접근 방식을 직접적인 액터 (actor)가 아닌 교사 네트워크 (teacher network)로 사용함으로써 더욱 강력하게 만들 수 있음을 보여줍니다. 우리는 대규모의 모든 목표 학습 (all-goals learning)을 실현함으로써, LEO가 복잡한 환경에서의 강화학습 (RL) 실무자들에게 유용한 도구가 되기를 바랍니다. 우리의 코드는 오픈 소스로 공개합니다.

AI 자동 생성 콘텐츠

원문 바로가기

모든 것을 한 번에 학습하는 목표 조건부 에이전트 (Goal-Conditioned Agents that Learn Everything All

요약

핵심 포인트

댓글