훈련생에서 트레이너로: 멀티 에이전트 추론(Multi-Agent Reasoning)을 활용한 강화학습(RL)용 LLM 설계 훈련 환경
요약
LLM이 강화학습(RL) 훈련 환경을 자동으로 설계하는 'LLM-as-Environment-Engineer' 프레임워크를 제안합니다. 실패 궤적을 분석하여 환경 설정을 수정하는 멀티 에이전트 추론 방식을 통해 기존의 수동 설계 방식을 자동화합니다.
핵심 포인트
- 실패 궤적과 환경 통계를 분석하여 RL 훈련 환경을 자동 재설계
- 제어 가능한 테스트베드인 MAPF-FrozenLake 도입
- Qwen3-4B 기반 프레임워크가 GPT, Gemini 등 폐쇄형 모델 능가
- RL 체크포인트 모델이 베이스 모델보다 환경 진단 능력이 뛰어남
대규모 언어 모델 (Large Language Model, LLM) 훈련을 위한 강화학습 (Reinforcement Learning, RL) 파이프라인은 종종 단계 사이에 수동으로 재설계된 환경에 의존하며, 이는 실무자가 어떤 설정이 현재 정책 (policy)을 가장 잘 개선할지 휴리스틱하게 추론해야 함을 의미합니다. 이 과정을 자동화하기 위해, 우리는 현재 정책 모델이 문맥 정보와 함께 실패 궤적 (failure trajectories)을 분석하고 다음 단계의 훈련 환경 설정에 대한 수정을 제안하는 LLM-as-Environment-Engineer 프레임워크를 제안합니다. 또한, 우리는 생성기가 다차원 환경 설정을 노출하여 환경 재설계 연구 및 벤치마킹에 적합한 제어 가능한 테스트베드인 MAPF-FrozenLake를 소개합니다. 이 테스트베드에서, 우리는 환경 엔지니어에게 정책 행동, 실패 사례 및 환경 통계에 대한 구조화된 요약을 조건으로 제공하며, 이를 통해 다음 훈련 단계를 위한 설정을 생성합니다. Qwen3-4B를 백본 (backbone)으로 사용하는 우리의 프레임워크는 벤치마크에서 가장 강력한 종합 성능을 달성하며, 더 큰 규모의 폐쇄형 LLM (예: GPT, Gemini) 및 고정 환경 훈련 베이스라인 (baselines)을 능가합니다. 우리는 더 나아가 어떤 형태의 문맥이 가장 효과적인지 분석하였으며, 성공적인 환경 업데이트는 실패 증거에 의존하고 이미 작동하는 설정은 보존한다는 것을 발견했습니다. 흥미롭게도, 현재의 RL 체크포인트 (checkpoint)는 원래의 베이스 모델보다 더 나은 환경 엔지니어 역할을 수행하며, 이는 정책 학습이 모델의 남은 약점을 진단하는 능력을 향상시킨다는 것을 시사합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기