본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 27. 12:02

BASIS: LLM 추론을 위한 단일 롤아웃 정보 공유 기반 배치 단위 Advantage 추정

요약

LLM 추론 능력 향상을 위해 단일 롤아웃 정보 공유를 기반으로 배치 단위 Advantage를 추정하는 BASIS 알고리즘을 제안합니다. 기존 강화학습의 계산 효율성과 샘플 효율성 간의 트레이드오프를 해결하며, 적은 샘플로도 높은 가치 함수 추정 정확도를 보입니다.

핵심 포인트

  • critic-free 사후 학습 알고리즘 BASIS 제안
  • 단일 롤아웃만으로도 높은 가치 함수 추정 정확도 달성
  • REINFORCE++ 대비 가치 함수 MSE 69% 감소
  • 다중 롤아웃 방식인 GRPO에 근접하는 성능 구현
  • 학습 시간 단축 및 정책 최적화 효율성 증대

검증 가능한 보상 (verifiable rewards)을 활용한 강화학습 (Reinforcement learning)은 대규모 언어 모델 (Large Language Models, LLM)의 추론 능력을 향상시키기 위한 표준적인 방법이 되었습니다. 기존 알고리즘들은 가치 추정 (value estimation) 및 정책 학습 (policy learning) 과정에서 계산 효율성 (computational efficiency)과 샘플 효율성 (sample efficiency) 사이의 트레이드오프 (tradeoff) 문제에 직면해 있습니다. 본 논문에서는 이러한 트레이드오프를 해결하기 위해 설계된 critic-free 사후 학습 (post-training) 알고리즘인 BASIS를 소개합니다. 각 온라인 학습 단계에서 BASIS는 프롬프트당 단 하나의 롤아웃 (rollout)만을 샘플링하지만, 전체 배치 (batch) 내의 프롬프트 간 풍부한 정보를 활용하여 가치 함수 (value function) 추정을 개선합니다. 실험 결과, BASIS는 대표적인 단일 롤아웃 베이스라인 (baseline)인 REINFORCE++와 비교했을 때 가치 함수 추정의 MSE (Mean Squared Error)를 69% 감소시켰으며, 단일 롤아웃만으로도 8개의 롤아웃을 사용하는 그룹 평균 추정기 (group mean estimators)보다 낮은 MSE를 달성했습니다. 이러한 가치 추정의 개선은 더 나은 정책 최적화 (policy optimization)로 이어집니다. BASIS는 실질적으로 훨씬 적은 학습 시간을 사용하면서도, 다중 롤아웃 (multi-rollout) 방식의 GRPO 유형 베이스라인에 근접하는 성능을 달성하며, 종종 단일 롤아웃 방식의 REINFORCE 유형 베이스라인을 능가합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0