왜 다단계 도구 사용 강화학습 (Multi-Step Tool-Use RL)이 붕괴되는가, 그리고 감독 신호 (Supervisory
요약
다단계 도구 사용 강화학습(RL) 과정에서 발생하는 성능 붕괴 현상의 원인을 분석하고, 이를 해결하기 위한 다양한 감독 신호(supervisory signals)의 효과를 연구했습니다. 특정 제어 토큰의 확률 급증이 구조적 실패를 유발함을 밝히고, SFT와 RL의 인터리빙을 통한 안정성 개선 방안을 제시합니다.
핵심 포인트
- 다단계 도구 사용 RL에서 발생하는 치명적 붕괴 현상 분석
- 제어 토큰의 확률 급증이 도구 호출 구조를 방해하는 원인 규명
- 오프-폴리시 감독 및 힌트 기반 가이드 등 다양한 감독 신호 조사
- SFT와 RL 인터리빙을 통한 학습 안정성 개선 효과 확인
- OOD(분포 외) 평가 시 발생하는 성능 저하 문제 지적
도구 사용 (Tool use)은 대규모 언어 모델 (LLMs)이 복잡한 작업을 수행할 수 있게 하며, 최근의 에이전트 기반 강화학습 (agentic reinforcement learning (RL)) 방법론들은 모델의 능력을 향상시킬 가능성을 보여줍니다. 그러나 RL만으로는 도구 사용 작업에서 불안정성이나 제한적인 이득을 초래하는 경우가 많습니다. 우리의 실험에서 일부 모델은 성능이 갑작스럽게 떨어지고 도구 호출 (tool-invocation) 구조가 실패하는 치명적 붕괴 (catastrophic collapse) 현상을 보입니다. 분석 결과, 이러한 실패는 특정 제어 토큰 (control tokens)에서의 예상치 못한 확률 급증 (probability spikes)에서 기인하며, 이로 인해 구조화된 실행이 방해받지만, 근본적인 도구 사용 능력은 온전하게 유지된 채 단지 특정 형식에 의해 가려져 있는 것으로 나타났습니다. 이를 해결하기 위해, 우리는 오프-폴리시 감독 (off-policy supervision), 힌트 기반 가이드 (hint-based guidance), 오류 예시 감독 (erroneous example supervision) 등을 포함한 다양한 감독 신호 (supervisory signals) 세트를 체계적으로 조사하였으며, 이를 동기식 (synchronous) 및 인터리브 (interleaved) 학습 체계 모두에 적용하였습니다. 우리는 지도 미세 조정 (supervised fine-tuning (SFT))을 RL과 인터리빙(interleaving)하는 것이 안정성을 실질적으로 개선하지만, 형식 및 내용의 분포 외 (out-of-distribution (OOD)) 평가 하에서는 성능 저하를 보인다는 것을 발견했습니다. 또한 우리는 학습률 (learning rates)의 영향과 다양한 설정 간의 일반화 성능을 분석합니다. 이러한 결과는 RL 실패를 이해하는 것의 중요성을 강조하며, 다양한 감독 신호가 어떻게 탐색적 학습 (exploratory learning)을 가이드하여 복잡한 다단계 도구 사용 작업을 위한 LLM의 견고한 학습을 가능하게 하는지 보여줍니다. 우리의 코드는 https://github.com/hypasd-art/Tool-RL-Box 에서 확인할 수 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기