R-Zero: 제로 데이터에서 스스로 진화하는 추론 LLM
요약
R-Zero는 방대한 인간의 레이블링 데이터에 의존하는 기존 LLM 학습 방식의 한계를 극복하기 위해 제안된 자율적인 프레임워크입니다. 이 시스템은 단일 기본 LLM을 기반으로 Challenger와 Solver라는 두 개의 독립적 모델을 초기화하고, 이들이 상호작용하며 공진화(co-evolve)합니다. Challenger는 난이도가 높은 작업을 제시하고, Solver는 이를 해결하는 과정을 통해 기존 데이터 없이도 목표 지향적인 자체 개선 커리큘럼을 생성하여 LLM의 추론 능력을 크게 향상시킵니다.
핵심 포인트
- R-Zero는 인간의 레이블링 작업에 의존하지 않고 제로 데이터(zero data)에서부터 학습 데이터를 자율적으로 생성하는 것이 핵심입니다.
- 시스템은 Challenger와 Solver라는 두 개의 역할을 가진 모델을 사용하여 상호작용하며 공진화합니다.
- Challenger가 난이도 높은 작업을 제시하고, Solver가 이를 해결함으로써 자체적인 개선 커리큘럼(curriculum)을 구축합니다.
- 실험 결과, R-Zero는 다양한 백본 LLM의 수학 및 일반 도메인 추론 벤치마크 점수를 크게 향상시키는 것으로 나타났습니다.
R-Zero: Self-Evolving Reasoning LLM from Zero Data
Abstract
Self-evolving Large Language Models (LLMs) 는 자신의 경험을 자율적으로 생성, 정제 및 학습함으로써 초지능(super-intelligence) 으로 가는 확장 가능한 경로를 제공합니다. 그러나 이러한 모델을 훈련하는 기존 방법은 여전히 방대한 인간이 큐레이션한 작업과 레이블에 크게 의존하며, 일반적으로 미세 조정(fine-tuning) 또는 강화학습(reinforcement learning) 을 통해 이루어집니다. 이는 AI 시스템을 인간의 지능을 넘어선 능력으로 발전시키는 데 근본적인 병목 현상을 야기합니다. 이 한계를 극복하기 위해 우리는 제로 데이터에서부터 자체 훈련 데이터를 생성하는 완전히 자율적인 프레임워크인 R-Zero 를 소개합니다. 단일 기본 LLM 에서 시작하여, R-Zero 는 Challenger 과 Solver 라는 서로 다른 역할을 가진 두 개의 독립적인 모델을 초기화합니다. 이러한 모델들은 별도로 최적화되며 상호작용을 통해 공진화(co-evolve) 합니다: Challenger 은 Solver 의 능력의 가장자리(edge) 에 가까운 작업을 제안하는 데 보상을 받고, Solver 는 Challenger 이 제시하는 점점 더 어려운 작업을 해결하는 데 보상을 받습니다. 이 과정은 기존 작업과 레이블 없이도 목표 지향적이고 자체 개선을 위한 커리큘럼(curriculum) 을 생성합니다. 경험적으로, R-Zero 는 다양한 백본(backbone) LLM 에서 추론 능력을 크게 향상시키며, 예를 들어 Qwen3-4B-Base 의 수학 추론 벤치마크 점수를 +6.49, 일반 도메인 추론 벤치마크 점수를 +7.54 로 높였습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 HN AI Research의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기