SPIRAL: 탐색 및 집합(Aggregate) 학습법
요약
SPIRAL은 언어 모델의 추론 성능을 높이기 위해 순차적 추론, 병렬 샘플링, 결과 집합 과정을 통합하여 학습하는 새로운 강화학습 프레임워크입니다. 기존 방식과 달리 세 가지 요소를 엔드 투 엔드로 최적화하여 추론 연산 효율성을 극대화합니다.
핵심 포인트
- 순차-병렬-집합(Sequential-Parallel-Aggregative) 강화학습 프레임워크 제안
- 테스트 시점의 추론 연산 확장을 위한 통합 최적화 구조
- GRPO 대비 최대 11배 높은 확장 효율성 및 15% 성능 향상 달성
- 집합 강화학습과 표준 강화학습을 결합한 학습 방식 사용
언어 모델의 추론(reasoning)은 서로 다른 기본 요소(primitives) — 트레이스(trace) 내의 순차적 추론(sequential reasoning), 독립적으로 샘플링된 병렬 트레이스(parallel traces), 그리고 여러 추론 트레이스를 최종 응답으로 집합(aggregation)하는 과정 — 에 걸쳐 추론 연산(inference compute)을 확장하는 스캐폴드(scaffolds)를 통해 테스트 시점에 실질적으로 개선될 수 있습니다. 그러나 사후 학습(post-training) 과정 동안 언어 모델은 단일 트레이스 내의 순차적 추론에 대해서만 최적화됩니다. 우리는 언어 모델이 통합된 추론 연산 파이프라인의 일부로서 이 세 가지 기본 요소를 모두 사용하도록 훈련하는 프레임워크인 순차-병렬-집합 강화학습 (Sequential-Parallel-Aggregative Reinforcement Learning, SPIRAL)을 소개합니다. 구체적으로, 언어 모델은 먼저 순차적 사고 사슬 (chain-of-thought) 추론을 통해 생성된 일련의 독립적인 트레이스들을 병렬로 샘플링한 다음, 해당 트레이스들을 조건으로 하여 최종 집합 트레이스(aggregation trace)를 생성합니다. 모든 구성 요소는 최종 집합된 응답의 보상(reward)을 바탕으로 엔드 투 엔드(end-to-end)로 최적화됩니다. 이 시스템을 훈련하기 위해, SPIRAL은 모델이 집합기(aggregator)에 집합적으로 유용한 트레이스 세트를 생성하도록 가르치는 집합 강화학습 (set reinforcement learning)과, 모델이 해당 세트를 개선된 최종 응답으로 집합하도록 가르치는 표준 강화학습 (standard reinforcement learning)을 사용합니다. 추론 작업에 대한 실험 결과, SPIRAL은 추론 연산에 따라 효과적으로 확장되며, 세 가지 연산 기본 요소를 모두 확장했을 때 GRPO보다 최대 11배 높은 확장 효율성과 15% 더 높은 성능을 보여주었습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기