에이전트 기반 강화학습을 위한 동적 스킬 라이프사이클 관리
요약
본 논문은 복잡한 작업을 수행하는 LLM 에이전트를 위해 외부 스킬 모듈을 관리하는 새로운 프레임워크 SLIM을 제안합니다. 기존 방법들이 스킬 축적이나 내재화를 가정하여 발생하는 한계를 극복하기 위해, SLIM은 활성 스킬 세트 자체를 정책 학습과 함께 동적으로 최적화 변수로 취급합니다. 이 프레임워크는 고가치 스킬 유지, 기여도 미미한 스킬 폐기, 그리고 실패 기반의 스킬 뱅크 확장을 통해 에이전트의 능력을 효율적으로 관리하며, 실험에서 최고 기준 모델 대비 높은 성능을 입증했습니다.
핵심 포인트
- SLIM은 외부 스킬 세트를 정책 학습과 공동으로 업데이트되는 동적 최적화 변수로 취급합니다.
- 활성 스킬 관리를 위해 '고가치 유지', '기여도 미미한 폐기', '실패 기반 뱅크 확장'의 세 가지 라이프사이클 연산을 적용합니다.
- SLIM은 정책 학습과 외부 스킬 유지가 상호 배타적이지 않음을 보여주며, 일반적인 에이전트형 RL 패러다임을 제시합니다.
- 제안된 프레임워크는 ALFWorld 및 SearchQA와 같은 복잡한 환경에서 높은 성능 향상을 보였습니다.
대규모 언어 모델 에이전트는 복잡한 작업을 해결하기 위해 외부 스킬에 점점 더 의존하고 있으며, 여기서 스킬은 파라미터 메모리만으로는 지원할 수 있는 능력을 넘어 확장하는 모듈식 단위 역할을 합니다. 기존 방법들은 외부 스킬이 영구적인 가이드로 축적되거나 정책 내부에 내재화된다고 가정하며, 이는 결국 제로-스킬 추론(zero-skill inference)으로 이어집니다. 우리는 이러한 가정이 지나치게 제한적이라고 주장합니다. 왜냐하면 제한된 파라미터 용량과 스킬 간의 불균일한 한계 기여도 때문에 최적의 활성 스킬 세트는 단조롭지 않고, 작업 및 단계에 따라 달라지기 때문입니다. 본 논문에서는 에이전트 기반 강화학습(RL)을 위한 동적 스킬 라이프사이클 관리 프레임워크인 SLIM을 제안합니다. SLIM은 활성 외부 스킬 세트를 정책 학습과 공동으로 업데이트되는 동적 최적화 변수로 취급합니다. 구체적으로, SLIM은 leave-one-skill-out 검증을 통해 각 활성 스킬의 한계 외부 기여도를 추정하고, 다음 세 가지 라이프사이클 연산을 적용합니다: 고가치 스킬 유지(retaining high-value skills), 충분한 노출 후 기여도가 미미해지는 스킬 폐기(retiring skills whose contribution becomes negligible after sufficient exposure), 그리고 지속적인 실패를 통해 누락된 역량 커버리지를 발견할 때 스킬 뱅크 확장(expanding the skill bank). 실험 결과, SLIM은 ALFWorld와 SearchQA 전반에 걸쳐 평균 7.1% 포인트로 최고 기준 모델을 능가하는 성능을 보였습니다.
결과는 정책 학습(policy learning)과 외부 스킬 유지(external skill retention)가 상호 배타적이지 않음을 추가로 보여줍니다. 즉, 일부 스킬은 정책에 흡수되는 반면, 다른 스킬들은 여전히 외부 가치를 제공하여 SLIM을 스킬 기반 에이전트형 강화학습 (skill-based agentic RL)의 보다 일반적인 패러다임으로 뒷받침합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기