arXiv논문2026. 05. 04. 19:04

AEM: 다중 턴 에이전트 강화학습을 위한 적응형 엔트로피 변조

요약

본 논문은 대형 언어 모델(LLM) 기반 에이전트가 다중 턴 작업을 수행할 때 발생하는 희소 보상 문제와 크레딧 할당 어려움을 해결하기 위한 새로운 방법인 AEM을 제안합니다. AEM은 강화 학습(RL) 훈련 과정 중 엔트로피 역학을 적응적으로 변조하여, 탐험과 활용 사이의 균형을 효과적으로 맞추는 감독 없는 크레딧 할당 방법을 제공합니다. 광범위한 실험 결과, 특히 SWE-bench-Verified와 같은 까다로운 벤치마크에서 기존 최신 모델 대비 유의미한 성능 향상을 입증했습니다.

핵심 포인트

AEM(Adaptive Entropy Modulation)은 LLM 에이전트의 다중 턴 작업 수행 능력을 강화하는 새로운 RL 기법입니다.
기존 RL 방법들이 직면했던 희소 보상 및 크레딧 할당 문제를 해결하며, 복잡한 중간 감독 없이 작동합니다.
AEM은 엔트로피 역학을 적응적으로 변조하여 탐험(exploration)과 활용(exploitation) 사이의 최적 균형점을 찾아냅니다.
SWE-bench-Verified와 같은 도전적인 벤치마크에서 기존 SOTA 모델 대비 유의미한 성능 개선(1.4%)을 달성했습니다.

강화 학습 (RL) 은 대형 언어 모델 (LLM) 에이전트가 환경과 상호작용하고 다중 턘 (multi-turn) 작업을 해결하는 능력을 크게 발전시켰습니다. 그러나 희소한 결과만 기반한 보상 (sparse, outcome-only rewards) 으로 인해 에이전트의 행동 궤적에서 개별 단계에 대한 크레딧 할당 (credit assignment) 을 할 때 어려움을 겪고 있어 효과적인 훈련은 여전히 도전적입니다. 일반적인 해결책은 프로세스 보상 모델 (process reward models) 또는 보조 자기지도 신호 (auxiliary self-supervised signals) 와 같은 밀도 높은 중간 감독을 도입하는 것이지만, 이는 감독과 튜닝 복잡성을 증가시키고 종종 작업 및 도메인 간 일반화가 잘 되지 않습니다.

이 논문은 RL 훈련 중에 엔트로피 역학을 적응적으로 변조하여 더 효과적인 탐험 - 활용 (exploration-exploitation) 트레이드오프를 달성하는 감독 없는 크레딧 할당 방법인 AEM 을 제시합니다. 이론적으로, 우리는 토크 레벨에서 응답 레벨 (response level) 로 엔트로피 분석을 높여 토크 샘플링 분산 (token sampling variance) 을 줄이고, 자연 기울기 (natural gradients) 하에서의 엔트로피 드리프트는 이득 (advantage) 과 상대적 응답 놀라움 (relative response surprisal) 의 곱에 의해 본질적으로 지배됨을 보여줍니다. 구체적으로, 우리는 훈련 역학을 재형성할 수 있는 실용적인 대안 (proxy) 을 유도하여 탐험에서 활용으로의 자연스러운 전환을 가능하게 합니다.

다양한 벤치마크와 1.5B 에서 32B 파라미터에 이르는 모델들을 대상으로 한 광범위한 실험은 AEM 의 효과성을 입증하며, 특히 SWE-bench-Verified 벤치마크라는 매우 도전적인 벤치마크에서 최첨단 베이스라인 (state-of-the-art baseline) 에 통합될 때 1.4 퍼센트의 유의한 개선이 있었습니다.

AI 자동 생성 콘텐츠

원문 바로가기

AEM: 다중 턴 에이전트 강화학습을 위한 적응형 엔트로피 변조

요약

핵심 포인트

댓글