SIRI: LLM 에이전트 학습을 위한 내재적 기술 기반의 자기 내재화 강화학습 (Self-Internalizing Reinforcement
요약
SIRI는 외부 기술 생성기 없이 LLM 에이전트가 스스로 기술을 발견, 검증 및 내재화하는 3단계 강화학습 프레임워크를 제안합니다. 이를 통해 추론 시 기술 검색에 따른 지연 시간과 복잡성을 줄이면서도 높은 성능을 달성합니다.
핵심 포인트
- 외부 기술 뱅크 없이 에이전트 스스로 기술을 내재화
- GiGPO 웜업, 자기 기술 채굴, 정책 증류의 3단계 과정
- 추론 시 추가적인 기술 검색 없이 프롬프트만으로 실행 가능
- ALFWorld 및 WebShop 벤치마크에서 기존 베이스라인 능가
- 폐쇄형 대규모 모델을 이용한 증류와 대등한 성능 입증
장기적 목표를 수행하는 LLM 에이전트(Long-horizon LLM agents)는 재사용 가능한 기술(skills)로부터 이득을 얻을 수 있지만, 기존의 기술 기반 방법론들은 학습 과정에서 외부 기술 생성기(external skill generators)에 의존하거나 추론(inference) 시 지속적인 기술 검색(skill retrieval)이 필요하여 엔지니어링 복잡성, 컨텍스트 길이(context length), 그리고 배포 지연 시간(deployment latency)을 증가시키는 경우가 많습니다. 우리는 외부 기술 생성기나 추론 시의 기술 뱅크(skill banks) 없이도 에이전트가 기술을 발견, 검증 및 내재화할 수 있도록 하는 3단계 프레임워크인 SIRI(Self-Internalizing Reinforcement learning with Intrinsic skills)를 제안합니다. SIRI는 먼저 GiGPO를 통해 정책(policy)을 웜업(warm up)하여 기본적인 상호작용 능력을 습득하고 기술이 없는(skill-free) 성공적인 궤적(trajectories)을 수집합니다. 그다음으로 자기 기술 채굴(self-skill mining)을 수행하는데, 여기서 현재의 정책은 자신의 성공적인 일반 롤아웃(plain rollouts)으로부터 압축된 기술을 요약하고, 기술이 강화된(skill-augmented) 롤아웃과 기술이 없는 롤아웃을 쌍으로 비교하여 이를 검증합니다. 마지막으로, SIRI는 궤적 수준의 효용(trajectory-level utility)과 행동 수준의 이점(action-level advantage)을 사용하여 유익한 기술 가이드 행동 토큰(skill-guided action tokens)만을 일반 정책(plain policy)으로 증류(distill)합니다. 추론 시 에이전트는 원래의 프롬프트(prompt)만으로 실행됩니다. Qwen2.5-7B-Instruct를 사용한 ALFWorld 및 WebShop 실험에서 SIRI는 ALFWorld에서 GiGPO의 성능을 0.908에서 0.930으로, WebShop에서는 0.728에서 0.813으로 향상시켰으며, 프롬프트 기반(prompt-based), 강화학습 기반(RL-based), 메모리 증강(memory-augmented) 베이스라인들을 능가했습니다. 추가 분석에 따르면, 우리의 자기 채굴(self-mining) 전략은 폐쇄형 대규모 모델(closed-source large model)을 이용한 증류와 대등한 성능을 달성할 수 있음을 보여줍니다. 우리의 코드는 https://github.com/kirito618/SIRI 에서 확인할 수 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기