arXiv논문2026. 06. 02. 10:47

작업 다양성은 체계적인 전이를 생성하지만 지속적 강화학습을 저해한다

요약

작업 다양성이 지속적 강화학습(Continual RL) 에이전트의 적응력에 미치는 영향을 분석한 연구입니다. 새로운 벤치마크 Banyan을 통해 작업 다양성이 단기적인 전이 학습에는 도움이 되지만, 장기적으로는 성능 정체와 망각을 초래함을 밝힙니다.

핵심 포인트

작업 다양성이 제로샷 일반화에는 유리하나 지속적 학습에는 저해 요인이 될 수 있음
GPU 가속 지속적 RL 도메인인 Banyan 벤치마크 소개
지도 레이아웃, 객체, 하위 목표 의존성을 통한 계층적 다양성 제어
단기적 국소 전이는 가능하나 장기적 작업에서는 성능 정체 및 망각 발생

지속적 강화학습 (Continual reinforcement learning)은 현재의 작업에서 성능을 향상시킬 뿐만 아니라, 작업 분포 (task distributions)가 변화함에 따라 적응할 수 있는 에이전트를 생성하는 것을 목표로 합니다. 다양하고 많은 작업에 대해 에이전트를 학습시키는 것은 제로샷 일반화 (zero-shot generalization)를 유도할 수 있지만, 이전 연구들은 일반적으로 가중치가 고정된 (frozen weights) 상태에서 학습 후의 일반화 능력을 평가합니다. 작업 다양성이 분포 변화 (distribution shifts)에 걸쳐 지속적으로 학습하는 에이전트의 능력 또한 향상시키는지 여부는 여전히 불분명합니다. 우리는 작업 다양성이 독립적으로 제어 가능한 세 가지 축, 즉 에이전트가 탐색해야 하는 지도 레이아웃 (map layouts), 상호작용해야 하는 객체 (objects), 그리고 하위 목표 의존성 (sub-goal dependencies)의 계층적 구조로 구성된 GPU 가속 지속적 RL 도메인인 Banyan을 소개합니다. 개별적인 분포 변화 과정에서 각 축을 따라 다양성을 높이면, 최적 정책 (optimal policy)의 구조가 변하는 변화가 발생하더라도 에이전트가 이전 작업에서 달성한 성능에 근접한 상태에서 새로운 작업에 대한 학습을 시작하게 됩니다. 그러나 변화의 횟수가 증가함에 따라, 이러한 국소적 전이 (local transfer)만으로는 지속적인 학습을 유지하지 못합니다. 즉, 더 긴 호흡의 작업 (longer-horizon tasks)은 정체기에 도달하며, 이후의 학습이 진행된 후에는 이전의 작업 분포를 망각하게 됩니다. Banyan은 통제된 작업 다양성이 언제 전이 가능한 학습을 생성하는지, 그 전이가 언제 지속되는지, 그리고 적절한 지속적 학습 측면에서 어디가 부족한지를 연구하기 위한 벤치마크입니다.

AI 자동 생성 콘텐츠

원문 바로가기

작업 다양성은 체계적인 전이를 생성하지만 지속적 강화학습을 저해한다

요약

핵심 포인트

댓글