효율적인 에이전트 강화학습을 위한 엔트로피 가이드를 활용한 도구 인식 최적화
요약
LLM의 도구 사용 능력을 향상시키기 위한 새로운 강화학습 프레임워크인 TAO-RL을 제안합니다. 궤적 필터링과 엔트로피 가이드 탐색을 결합하여 학습의 불안정성을 해결하고 추론 성능을 최적화합니다.
핵심 포인트
- TAO-RL 프레임워크를 통한 도구 인식 최적화
- 도구 호출 실패 및 변별력 없는 궤적 필터링 기술
- 엔트로피 가이드 보너스를 통한 추론 경로 탐색 강화
- 7개 벤치마크 실험을 통한 기존 방법론 대비 우수성 입증
에이전트 강화학습 (Agentic reinforcement learning, RL)은 대규모 언어 모델 (LLMs)에 도구 사용 (tool-use) 능력을 부여하여 복잡한 작업에 대한 추론 능력을 실질적으로 향상시킵니다. 그러나 외부 도구를 통합하는 과정은 종종 학습을 불안정하게 만듭니다. 도구에 대한 과도한 의존은 입력 분포 변화 (input distribution shift)를 유발할 수 있는 반면, 지나치게 보수적인 도구 사용은 효과적인 탐색 (exploration)을 제한합니다. 이 문제를 해결하기 위해, 우리는 효율적인 정책 최적화 (policy optimization)를 위해 도구 인식 궤적 필터링 (tool-aware trajectory filtering)과 엔트로피 가이드 탐색 (entropy-guided exploration)을 결합한 통합 프레임워크인 TAO-RL을 제안합니다. 구체적으로, 데이터 수준에서 TAO-RL은 두 가지 기준에 따라 롤아웃 궤적 (rollout trajectories)을 필터링합니다. 첫째, 모든 도구 호출 (tool invocations)이 실행에 실패한 궤적을 폐기하며, 둘째, 모든 롤아웃이 정답이거나 오답인 경우를 제거합니다. 이 두 경우 모두 변별력 있는 학습 신호를 제공하지 않는 퇴화된 어드밴티지 추정치 (degenerate advantage estimates)를 생성하기 때문입니다. 이러한 결합된 필터링은 도구 사용 능력이 있으면서도 정보량이 많은 데이터를 유지하여 고품질의 학습 분포를 구축합니다. 알고리즘 수준에서는 도구 호출 후 토큰 (post-tool-call tokens)에서 어드밴티지 함수 (advantage function)를 재구성하는 도구 인식 엔트로피 가이드 보너스 (tool-aware entropy-guided bonus)를 도입하여, 정책이 중요한 결정 지점에서 더 다양한 추론 경로를 탐색하도록 장려합니다. 이 두 구성 요소는 상호 보완적입니다. 궤적 필터링은 깨끗하고 정보가 풍부한 학습 기반을 구축하며, 엔트로피 가이드 탐색은 중요한 도구 상호작용 분기점에서 더 강력한 추론 동작을 유도합니다. 3가지 모델 규모에 걸쳐 7개의 도전적인 추론 벤치마크에서 수행된 광범위한 실험은 기존 방법론 대비 TAO-RL의 우수성을 입증합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기