arXiv논문2026. 05. 15. 15:31

자기 증류 에이전트 강화학습 (Self-Distilled Agentic Reinforcement Learning)

요약

본 논문은 LLM 에이전트의 사후 학습(post-training)을 위한 새로운 프레임워크인 Self-Distilled Agentic Reinforcement Learning (SDAR)를 제안합니다. 기존의 On-Policy Self-Distillation (OPSD) 방식은 장기 상호작용에서 다회차 불안정성 및 부정적인 교사 거부 처리 문제에 직면했습니다. SDAR는 OPSD를 게이트형 보조 목적 함수로 통합하여, 시그모이드 게이트를 통해 긍정적 토큰 증류를 강화하고 부정적 피드백은 부드럽게 감쇠시켜 안정성을 확보합니다.

핵심 포인트

SDAR는 LLM 에이전트의 사후 학습을 위한 새로운 RL 프레임워크이다.
기존 OPSD 방식은 다회차 상호작용에서 불안정성 및 부정적 교사 거부 처리에 어려움이 있었다.
SDAR는 게이트형 보조 목적 함수를 사용하여 긍정적인 토큰 증류를 강화하고, 부정적인 피드백을 부드럽게 감쇠시킨다.
ALFWorld, WebShop, Search-QA 등 다양한 환경에서 GRPO 대비 높은 성능 향상을 입증했다.

강화학습 (RL)은 LLM 에이전트의 사후 학습 (post-training)을 위한 핵심 패러다임으로 부상했으나, 궤적 수준 (trajectory-level)의 보상 신호는 장기적 상호작용 (long-horizon interaction)에 대해 거친 감독 (coarse supervision)만을 제공합니다. 온-정책 자기 증류 (On-Policy Self-Distillation, OPSD)는 특권적 문맥 (privileged context)으로 보강된 교사 브랜치 (teacher branch)로부터 조밀한 토큰 수준 (token-level) 가이드를 도입함으로써 RL을 보완합니다. 그러나 OPSD를 다회차 (multi-turn) 에이전트로 전이하는 것은 문제가 있음이 드러났습니다. 다회차 불안정성 (multi-turn instability)의 누적은 감독을 불안정하게 만들며, 기술 조건부 특권 가이드 (skill-conditioned privileged guidance)는 불완전한 기술 검색 또는 활용으로 인해 발생할 수 있는 부정적인 교사 거부 (negative teacher rejections)에 대해 비대칭적 처리를 요구합니다. 본 논문에서는 OPSD를 게이트형 보조 목적 함수 (gated auxiliary objective)로 취급하면서 RL을 주요 최적화 백본 (optimization backbone)으로 유지하는 SDAR (Self-Distilled Agentic Reinforcement Learning)를 소개합니다. SDAR는 분리된 토큰 수준 신호를 시그모이드 게이트 (sigmoid gate)로 매핑하여, 교사가 승인한 양의 차이 (positive-gap) 토큰에 대한 증류를 강화하고 부정적인 교사 거부는 부드럽게 감쇠 (softly attenuating)시킵니다. ALFWorld, WebShop, Search-QA의 Qwen2.5 및 Qwen3 제품군에 걸쳐 실험한 결과, SDAR는 GRPO 대비 상당한 성능 향상을 보였으며 (ALFWorld에서 +9.4%, Search-QA에서 +7.0%, WebShop-Acc에서 +10.2%), 단순한 GRPO+OPSD의 불안정성을 방지하고 다양한 모델 규모에서 하이브리드 RL--OPSD 베이스라인을 일관되게 능가했습니다.

AI 자동 생성 콘텐츠

원문 바로가기

자기 증류 에이전트 강화학습 (Self-Distilled Agentic Reinforcement Learning)

요약

핵심 포인트

댓글