본문으로 건너뛰기

© 2026 Molayo

HuggingFace중요헤드라인2026. 04. 24. 05:49

GPT-OSS 모델의 에이전트 기반 강화학습(RL) 훈련 방법론 분석

요약

본 글은 오픈소스 거대 언어 모델(LLM)인 GPT-OSS를 에이전트 기반 강화학습(RL) 환경에 적용하는 실질적인 방법론을 제시합니다. 특히, 복잡한 다단계 작업 수행 능력을 갖춘 AI 시스템 구축을 목표로 하며, 인기 RL 프레임워크인 verl을 활용했습니다. 핵심 과제는 GPT-OSS의 MoE (Mixture of Experts) 아키텍처가 야기하는 on-policy PPO 훈련 중 발생하는 중요도 샘플링(Importance Sampling) 비율 불일치 문제를 해결하는 것이었습니다. 이 문제는 두 개의 순방향 패스(Dual-

핵심 포인트

  • GPT-OSS는 복잡한 다단계 작업 수행이 필요한 에이전트 시스템의 백본 모델로 활용 가능하며, 이는 OpenAI o3-mini 및 o4-mini와 유사한 성능을 보입니다.
  • on-policy PPO 훈련 시, GPT-OSS의 MoE 아키텍처 특성상 발생하는 순방향 패스 간 라우팅 불일치(Dual Forward Pass)가 중요도 샘플링 비율($ ext{Importance Ratio}$)를 1이 아닌 값으로 만들고 PPO 클리핑을 유발하는 근본적인 원인이었습니다.
  • 이 문제를 해결하기 위해, on-policy 모드에서 $ ext{old log-probability}$ 값을 새로 계산된 $ ext{log_prob}$로 대체하여 중요도 비율을 수학적으로 1로 강제 설정함으로써 PPO의 안정성을 확보했습니다.
  • 최종적으로는 단순한 GSM8K와 같은 단일 단계 작업에서도 불안정성(gradient explosion)이 지속되어, 모델 추론 시간과 학습 환경 간의 근본적인 불일치(Training-Inference Mismatch)가 핵심 원인으로 지목되었습니다.

LinkedIn 등 AI 중심 기업에서 에이전트 시스템은 단순한 정적 응답을 넘어, 불완전한 정보에 대한 추론, 구조화된 서비스와의 상호작용, 그리고 다단계 사용자 의도 변화에 적응해야 합니다. 이러한 능력은 채용 담당자나 학습자 같은 최종 사용자가 정보를 검색하고 쿼리를 개선하며 도구를 조정하는 복합적인 워크플로우를 수행하는 데 필수적입니다.

이에 따라 에이전트 기반 강화학습 (Agentic RL)은 시스템을 엔드투엔드 최적화(end-to-end optimization)를 통해 구축할 수 있는 원칙적인 토대를 제공합니다. 본 글은 오픈소스 LLM인 GPT-OSS가 이러한 에이전트 기반 학습에 어떻게 활용될 수 있는지 실질적인 경험을 공유합니다.

1. 실험 환경 및 목표 설정

본 연구는 OSS 커뮤니티에서 인기 있는 프레임워크인 verl을 사용하여 GPT-OSS-20B 모델의 RL 훈련 가능성을 탐구했습니다. GSM8K, ReTool 태스크 등 표준적인 RL 벤치마크를 활용했으며, Qwen-2.5-32B 모델을 비교 기준으로 사용했습니다.

가장 대표적인 예시로 ReTool 에이전트 코딩 태스크를 사용했습니다. 이 태스크에서 모델은 코드 컴파일러 도구(tool)의 도움을 받아 수학 문제를 해결하며, 여러 번의 상호작용과 실행 결과를 피드백으로 삼아 최종 답안을 도출합니다.

2. PPO 훈련 중 발생한 핵심 문제점: 중요도 샘플링 불일치

초기 훈련 과정에서 KL 발산(KL divergence) 폭발, 엔트로피 불안정성, 그리고 보상(reward)의 비증가 등 심각한 문제가 관찰되었습니다. 특히 on-policy 방식은 안정적이고 신뢰할 수 있는 수렴을 제공하기 때문에 이 방식을 고수했습니다.

PPO (Proximal Policy Optimization) 알고리즘의 핵심 전제는 중요도 샘플링 비율(Importance Sampling Ratio)이 정확히 1이어야 한다는 것입니다. 그러나 GPT-OSS와 같은 Mixture of Experts (MoE) 아키텍처를 가진 모델을 verl 프레임워크로 훈련할 때, 이 전제가 깨지는 문제가 발생했습니다.

문제의 근본 원인: 이전 버전의 구현은 동일한 상태-행동 쌍에 대해 두 개의 별도 순방향 패스(Dual Forward Pass)를 사용했는데, MoE 구조에서는 게이팅 네트워크(gating network)가 입력 데이터를 여러 전문가(experts)로 라우팅합니다. 이 과정에서 미세한 부동 소수점 차이나 확률적 특성 때문에 두 패스의 전문가 라우팅 결과가 약간 다르게 나타나게 됩니다.

결과: 이러한 라우팅 불일치(routing mismatch)는 중요도 비율이 1에서 벗어나도록 만들었고, 이는 PPO의 클리핑 메커니즘을 오작동시켜 on-policy 가정을 위반하게 했습니다.

3. 해결책: $ ext{Log-Probability}$ 대체 전략 도입

이 문제를 해결하기 위해, 연구진은 on-policy 모드에서 중요도 비율 계산 시 오류가 발생한 부분을 논리적으로 재정의했습니다. 즉, $ ext{old log-probability}$ 값을 새로 계산된 $ ext{log_prob}$ 값으로 대체하는 코드를 삽입했습니다.

if on_policy:
    old_log_prob = log_prob.detach()
else:
    old_log_prob = model_inputs[

AI 자동 생성 콘텐츠

본 콘텐츠는 Hugging Face Blog의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
1

댓글

0