SENTINEL: 도구 사용 언어 모델 에이전트 학습을 위한 실패 기반 강화학습 (Failure-Driven Reinforcement
요약
SENTINEL은 언어 모델 에이전트의 도구 사용 능력을 향상시키기 위해 실패 기반 강화학습 프레임워크를 제안합니다. 컨트롤러, 제안자, 솔버 루프를 통해 모델의 오류 패턴을 분석하고 이를 타겟팅한 학습 태스크를 생성하여 학습 효율을 극대화합니다.
핵심 포인트
- 실패한 궤적을 분석하여 맞춤형 학습 태스크를 생성하는 프레임워크 제안
- 컨트롤러-제안자-솔버 루프를 통한 타겟팅된 강화학습 수행
- Tau2-Bench Retail 환경에서 Pass^1 성능을 66.4에서 74.9로 향상
- 기존 합성 태스크 기반 RL보다 뛰어난 일반화 성능 입증
언어 모델 에이전트 (Language model agents)는 다회차 도구 사용 (multi-turn tool use)을 통해 현실적인 과제를 해결하는 데 점점 더 효과를 보이고 있습니다. 그러나 신뢰할 수 있는 도구 사용 에이전트를 학습시키는 것은 실제 적용 시 여전히 어려운 과제로 남아 있습니다. 강화학습 (Reinforcement Learning, RL)은 에이전트가 자신의 환경 상호작용으로부터 스스로를 개선할 수 있는 온-폴리시 (on-policy) 패러다임을 제공하지만, 그 효과는 학습 태스크 분포 (task distribution)에 크게 의존합니다. 학습 전에 태스크가 고정될 경우, 태스크 분포가 진화하는 정책 (policy)의 능력과 점점 더 불일치하게 되어, 많은 롤아웃 (rollouts)이 정보 가치가 없는 태스크에 소비될 수 있습니다. 우리는 솔버 (Solver)의 롤아웃 실패를 타겟팅된 학습 태스크로 전환하는 실패 기반 강화학습 프레임워크인 SENTINEL을 제안합니다. SENTINEL은 컨트롤러(Controller)–제안자(Proposer)–솔버(Solver) 루프를 따릅니다: 컨트롤러는 실패한 궤적 (trajectories)을 분석하고 반복되는 오류 패턴을 요약하며, 제안자는 이러한 약점을 압박하는 실행 가능한 태스크를 생성하고, 솔버는 타겟팅된 태스크를 통해 학습됩니다. Qwen3-4B-Thinking-2507을 사용한 Tau2-Bench Retail 환경에서 SENTINEL은 Pass^1을 66.4에서 74.9로 향상시켰으며, Pass^k 지표 전반에 걸쳐 일반적인 합성 태스크 (synthetic tasks)에서의 RL보다 뛰어난 성능을 보였습니다. 이러한 결과는 모델의 실패가 도구 사용 언어 모델 에이전트를 개선하기 위한 효과적이고 확장 가능한 타겟 학습 신호 (targeted training signal)의 원천이 될 수 있음을 입증합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기