arXiv논문2026. 05. 28. 13:22

Skill0.5: 에이전트 강화학습 (Agentic RL)의 분포 외 일반화 (Out-of-Distribution

요약

Skill0.5는 에이전트 강화학습(Agentic RL)의 기술 내재화와 외부화 사이의 딜레마를 해결하는 새로운 프레임워크입니다. 난이도 인지 라우터를 통해 일반 기술은 내재화하고 작업 특정 기술은 활용함으로써 분포 외 일반화 성능을 높입니다.

핵심 포인트

기술 내재화와 외부화의 균형을 맞춘 Skill0.5 프레임워크 제안
난이도 인지 라우터를 통한 맞춤형 최적화 전략 적용
어려운 과제는 특권 증류로 일반 기술 내재화
쉬운 과제는 진단적 프로빙으로 특정 기술 활용 강제
ALFWorld 및 WebShop 실험에서 OOD 성능 향상 입증

대규모 언어 모델 (LLM)에 명시적인 기술 (skills)을 갖추는 것은 자율 에이전트가 복잡한 과제를 해결할 수 있도록 하는 유망한 패러다임으로 떠올랐습니다. 에이전트 기술은 광범위한 인지적 전이를 위한 일반 기술 (general skills)과 동적인 실행을 위한 작업 특정 기술 (task-specific skills)로 본질적으로 나눌 수 있습니다. 그러나 기존의 기술 기반 강화학습 (RL) 방법들은 일반적으로 과도한 컨텍스트 오버헤드 (context overhead)를 초래하는 완전한 외부화 (externalization)와, 과적합 (overfitting) 및 지식 충돌 (knowledge conflicts)의 위험이 있는 완전한 내재화 (internalization) 사이에서 경직된 선택을 강요합니다. 이러한 딜레마를 해결하기 위해, 우리는 일반 기술의 내재화와 작업 특정 기술의 활용을 결합하여 기술 처리를 명시적으로 차별화하는 새로운 에이전트 강화학습 (agentic RL) 프레임워크인 Skill0.5를 제안합니다. 동적이고 난이도 인지적인 라우터 (difficulty-aware router)에 의해 구동되는 Skill0.5는 과제를 서로 다른 숙련도 계층 (mastery tiers)으로 스트리밍하여 맞춤형 최적화 전략을 적용합니다. 즉, 어려운 과제에 대해서는 특권 증류 (privileged distillation)를 통해 일반 기술을 내재화하여 인지적 기반을 구축하는 한편, 쉬운 과제에 대해서는 진단적 프로빙 (diagnostic probing)을 사용하여 지름길 (shortcuts)을 억제하고 특정 기술 활용을 강제합니다. ALFWorld 및 WebShop에서의 실험을 통해 Skill0.5가 메모리 기반 (memory-based) 및 기술 기반 (skill-based) RL 베이스라인 모두를 능가하며, 분포 내 (in-distribution) 및 분포 외 (out-of-distribution) 시나리오 모두에서 성능 향상을 달성함을 입증했습니다.

AI 자동 생성 콘텐츠

원문 바로가기

Skill0.5: 에이전트 강화학습 (Agentic RL)의 분포 외 일반화 (Out-of-Distribution

요약

핵심 포인트

댓글