액션 병목 현상 해결: 토큰 수준 에너지에 기반한 에이전트 강화학습 (Agentic Reinforcement Learning)
요약
본 논문은 에이전트 강화학습 과정에서 발생하는 '액션 병목(Action Bottleneck)' 현상을 다룹니다. 기존 정책 경사 방법들이 궤적 내 모든 토큰에 균등한 신용 할당을 하는 것이 오히려 비효율적임을 지적하며, 실제 학습 신호가 추론 토큰보다 환경 대응 액션 토큰에 집중됨을 보여줍니다. 이를 해결하기 위해, 본 연구는 ActFocus라는 단순한 토큰 재가중치 기법과 에너지 기반의 추가적인 가중치 재분배 메커니즘을 제안합니다.
핵심 포인트
- 기존 정책 경사 방법(PPO, GRPO)은 궤적 내 모든 토큰에 균등하게 신용 할당하는 문제가 있습니다.
- 실제 학습 신호는 액션 토큰에 집중되는 '액션 병목' 현상이 발생하며, 이는 기존 방식의 비효율성을 야기합니다.
- ActFocus는 추론 토큰에 대한 그래디언트 가중치를 낮추고 액션 토큰의 가중치를 높이는 단순한 토큰 재가중치 기법입니다.
- 제안된 ActFocus 및 에너지 기반 메커니즘은 추가 비용 없이 기존 방법 대비 높은 최종 단계 이득을 달성했습니다.
에이전트 강화학습 (Agentic reinforcement learning)은 긴 추론 흔적 (reasoning traces)과 짧은 환경 대응 액션 (environment-facing actions)이 교차되는 다회차 궤적 (multi-turn trajectories)을 사용하여 대규모 언어 모델 (LLM)을 학습시킵니다. PPO 및 GRPO와 같은 일반적인 정책 경사 (policy-gradient) 방법들은 궤적 내의 각 토큰을 동일하게 취급하며, 이는 균등한 신용 할당 (credit assignment)으로 이어집니다. 본 논문에서 우리는 이러한 균등한 신용 할당이 토큰 수준의 학습 신호를 크게 잘못 할당한다는 점을 비판적으로 입증합니다. 에너지 기반 모델링 (energy-based modeling) 관점에서, 우리는 주어진 프롬프트로부터 샘플링된 서로 다른 롤아웃 (rollouts)의 보상 분산 (reward variance)과의 상관관계로 정량화된 토큰 수준 학습 신호가, 액션 토큰이 궤적에서 차지하는 비중이 매우 작음에도 불구하고 추론 토큰 (reasoning tokens)보다는 액션 토큰 (action tokens)에 급격히 집중된다는 것을 보여줍니다. 우리는 이 현상을 액션 병목 (Action Bottleneck)이라고 부릅니다. 이러한 관찰에 착안하여, 우리는 추론 토큰에 대한 그래디언트 (gradients)의 가중치를 낮추는 매우 단순한 토큰 재가중치 (token reweighting) 방식인 ActFocus를 제안하며, 이와 함께 불확실성 (uncertainty)이 더 높은 액션 토큰의 가중치를 더욱 높이는 추가적인 에너지 기반 재분배 메커니즘을 제안합니다. 4개의 환경과 다양한 모델 크기에 걸쳐, ActFocus는 추가적인 실행 시간이나 메모리 비용 없이 PPO 및 GRPO를 일관되게 능가하며, 각각 최대 65.2 및 63.7 퍼센트 포인트의 최종 단계 이득 (final-step gains)을 달성했습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기