arXiv논문2026. 06. 11. 12:24

검증 가능한 환경은 레고 블록과 같다: 추론 일반화를 위한 재귀적 합성

요약

본 논문은 검증 가능한 환경(Verifiable Environment)을 재귀적으로 합성하여 LLM의 추론 일반화 능력을 향상시키는 프레임워크 RACES를 제안합니다. RACES는 환경의 공역과 정의역 일치를 통해 빌딩 블록들을 자동으로 융합하며, 이를 통해 효율적인 방식으로 다양한 추론 패턴을 유도할 수 있습니다.

핵심 포인트

RACES: 검증 가능한 환경을 재귀적으로 합성하는 프레임워크.
환경의 공역/정의역 일치 원리를 활용하여 자동 융합 가능.
적은 기본 환경으로 많은 개별 환경을 구성, 효율성 입증.
RL 훈련 시 추론 일반화 능력이 지속적으로 향상됨.

검증 가능한 환경을 활용한 강화학습 (RL)은 대규모 언어 모델 (LLMs)의 추론 능력을 향상시키는 강력한 접근 방식으로 부상했습니다. 이전 연구들은 환경의 양을 늘리는 것이 RL 성능을 개선한다는 것을 보여주었지만, 기존의 수동적 또는 개별적인 구성 방식은 선형 확장성 한계에 직면하여 확장 가능한 추론 일반화를 저해합니다. 본 논문에서는 검증 가능한 환경을 재귀적으로 조립할 수 있는 합성 가능한 빌딩 블록으로 개념화하는 프레임워크인 RACES ( extbf{R}ecursive extbf{A}utomated extbf{C}omposition for extbf{E}nvironment extbf{S}caling)를 소개합니다. 핵심 통찰은 하나의 환경의 공역(codomain, 출력 타입)이 다른 환경의 정의역(domain, 입력 타입)과 일치할 때, 이들을 자동으로 새로운 검증 가능한 환경으로 융합하여 재귀적 합성을 가능하게 한다는 것입니다. RACES는 300개의 개별 환경으로 구현되었으며, 다양한 추론 패턴을 유도하는 일련의 합성 연산자들 ( extsc{SEQUENTIAL}, extsc{PARALLEL}, extsc{SORT}, 및 extsc{SELECT})을 정의합니다. 광범위한 실험 결과에 따르면, 이러한 합성 환경에서 RL 훈련은 지속적으로 추론 일반화를 향상시킵니다. 구체적으로, RACES는 DeepSeek-R1-Distill-Qwen-14B의 성능을 평균 3.1점(48.2점에서 51.3점으로) 향상시키고, 6개 벤치마크에서 Qwen3-14B의 성능을 58.8점에서 61.1점으로 끌어올렸는데, 이 벤치마크들은 학습 환경 구성 시에는 볼 수 없었던 것들입니다. 더욱이, RACES는 단 50개의 기본 환경만을 사용하여 300개의 개별 환경에서 훈련한 것과 필적하는 성능을 달성함으로써, 환경 활용에 있어 상당한 효율성을 입증했습니다.

AI 자동 생성 콘텐츠

원문 바로가기

검증 가능한 환경은 레고 블록과 같다: 추론 일반화를 위한 재귀적 합성

요약

핵심 포인트

댓글