본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 25. 16:47

모든 것을 한 번에 학습하는 목표 조건부 에이전트 (Goal-Conditioned Agents that Learn Everything All

요약

모든 목표를 한 번에 학습하는 LEO(Learning Everything all at Once) 방식을 제안합니다. 단일 네트워크 통과만으로 모든 목표에 대한 병렬 업데이트를 가능하게 하여, 기존 재라벨링 방식 대비 250배 이상의 속도 향상을 달성했습니다.

핵심 포인트

  • 모든 목표에 대한 가치와 행동을 공동 출력하여 효율성 극대화
  • 기존 재라벨링 방식 대비 250배 이상의 학습 속도 향상
  • Craftax 및 연속 제어 환경에서 뛰어난 성능 입증
  • 교사 네트워크(Teacher Network)로 활용 시 성능 강화 가능

환경을 탐색하는 목표 조건부 강화학습 (Goal-conditioned reinforcement learning) 에이전트는 궤적 (trajectory) 전반에 걸쳐 풍부한 정보를 접하게 되지만, 명령된 목표 (commanded goal)에 대해서만 온-정책 (on-policy) 업데이트를 수행할 경우 이 정보의 대부분이 폐기됩니다. 각 전이 (transition)를 모든 목표에 대해 오프-정책 (off-policy) 학습에 사용하는 '모든 목표 학습 (All-goals learning)' 방식은 에이전트가 최대한의 정보를 추출할 수 있게 해주지만, 단순한 재라벨링 (relabelling) 방식을 사용할 경우 일반적으로 계산적으로 불가능합니다. 이는 모든 목표에 대한 가치 (values)와 행동 (actions)을 한 번에 공동으로 출력함으로써 극복할 수 있으며, 이를 통해 네트워크를 단 한 번 통과하는 것만으로 효율적이고 병렬적인 모든 목표 업데이트가 가능해집니다. 우리는 이 과정을 '모든 것을 한 번에 학습 (Learning Everything all at Once, LEO)'이라고 부릅니다. 우리는 이 접근 방식이 목표 조건부 Craftax에서 다른 방법들을 크게 능가하며, 연속 제어 (continuous control) 환경에서는 기존 베이스라인 (baselines)들과 경쟁할 만한 성능을 보이면서도, 모든 목표 재라벨링 (all-goals relabelling) 대비 250배 이상의 속도 향상을 달성함을 보여줍니다. 이어 우리는 이 접근 방식을 직접적인 액터 (actor)가 아닌 교사 네트워크 (teacher network)로 사용함으로써 더욱 강력하게 만들 수 있음을 보여줍니다. 우리는 대규모의 모든 목표 학습 (all-goals learning)을 실현함으로써, LEO가 복잡한 환경에서의 강화학습 (RL) 실무자들에게 유용한 도구가 되기를 바랍니다. 우리의 코드는 오픈 소스로 공개합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0