본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 15. 15:31

자기 증류 에이전트 강화학습 (Self-Distilled Agentic Reinforcement Learning)

요약

본 논문은 LLM 에이전트의 사후 학습(post-training)을 위한 새로운 프레임워크인 Self-Distilled Agentic Reinforcement Learning (SDAR)를 제안합니다. 기존의 On-Policy Self-Distillation (OPSD) 방식은 장기 상호작용에서 다회차 불안정성 및 부정적인 교사 거부 처리 문제에 직면했습니다. SDAR는 OPSD를 게이트형 보조 목적 함수로 통합하여, 시그모이드 게이트를 통해 긍정적 토큰 증류를 강화하고 부정적 피드백은 부드럽게 감쇠시켜 안정성을 확보합니다.

핵심 포인트

  • SDAR는 LLM 에이전트의 사후 학습을 위한 새로운 RL 프레임워크이다.
  • 기존 OPSD 방식은 다회차 상호작용에서 불안정성 및 부정적 교사 거부 처리에 어려움이 있었다.
  • SDAR는 게이트형 보조 목적 함수를 사용하여 긍정적인 토큰 증류를 강화하고, 부정적인 피드백을 부드럽게 감쇠시킨다.
  • ALFWorld, WebShop, Search-QA 등 다양한 환경에서 GRPO 대비 높은 성능 향상을 입증했다.

강화학습 (RL)은 LLM 에이전트의 사후 학습 (post-training)을 위한 핵심 패러다임으로 부상했으나, 궤적 수준 (trajectory-level)의 보상 신호는 장기적 상호작용 (long-horizon interaction)에 대해 거친 감독 (coarse supervision)만을 제공합니다. 온-정책 자기 증류 (On-Policy Self-Distillation, OPSD)는 특권적 문맥 (privileged context)으로 보강된 교사 브랜치 (teacher branch)로부터 조밀한 토큰 수준 (token-level) 가이드를 도입함으로써 RL을 보완합니다. 그러나 OPSD를 다회차 (multi-turn) 에이전트로 전이하는 것은 문제가 있음이 드러났습니다. 다회차 불안정성 (multi-turn instability)의 누적은 감독을 불안정하게 만들며, 기술 조건부 특권 가이드 (skill-conditioned privileged guidance)는 불완전한 기술 검색 또는 활용으로 인해 발생할 수 있는 부정적인 교사 거부 (negative teacher rejections)에 대해 비대칭적 처리를 요구합니다. 본 논문에서는 OPSD를 게이트형 보조 목적 함수 (gated auxiliary objective)로 취급하면서 RL을 주요 최적화 백본 (optimization backbone)으로 유지하는 SDAR (Self-Distilled Agentic Reinforcement Learning)를 소개합니다. SDAR는 분리된 토큰 수준 신호를 시그모이드 게이트 (sigmoid gate)로 매핑하여, 교사가 승인한 양의 차이 (positive-gap) 토큰에 대한 증류를 강화하고 부정적인 교사 거부는 부드럽게 감쇠 (softly attenuating)시킵니다. ALFWorld, WebShop, Search-QA의 Qwen2.5 및 Qwen3 제품군에 걸쳐 실험한 결과, SDAR는 GRPO 대비 상당한 성능 향상을 보였으며 (ALFWorld에서 +9.4%, Search-QA에서 +7.0%, WebShop-Acc에서 +10.2%), 단순한 GRPO+OPSD의 불안정성을 방지하고 다양한 모델 규모에서 하이브리드 RL--OPSD 베이스라인을 일관되게 능가했습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0