본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 13. 06:37

G-Zero: 제로 데이터로부터의 개방형 생성(Open-Ended Generation)을 위한 자가 플레이(Self-Play)

요약

G-Zero는 자가 플레이(Self-Play) 메커니즘을 활용하여 외부 심판이나 프록시 모델의 한계에서 벗어난, 개방형 작업 환경에서의 대규모 언어 모델(LLMs) 자체 진화를 목표로 하는 공진화적 프레임워크입니다. 핵심 혁신인 Hint-$δ$는 생성기 응답과 스스로 만든 힌트에 조건화된 응답 간의 예측 변화량을 정량화하여 내재적 보상으로 사용합니다. 이 시스템은 제안자 모델이 도전적인 질의와 정보성 힌트를 합성하며, 생성기는 이를 통해 지속적으로 개선되어 LLM 자체 진화를 가능하게 합니다.

핵심 포인트

  • G-Zero는 외부 심판 의존성을 제거하여 개방형 작업 환경에서 LLMs의 자율적이고 공진화적인 발전을 추구합니다.
  • 핵심 메커니즘인 Hint-$δ$는 생성기 모델의 응답 변화를 정량화하는 내재적 보상 신호로 작용합니다.
  • 제안자(Proposer)와 생성기(Generator)가 각각 GRPO 및 DPO를 통해 상호작용하며, 지속적으로 서로의 약점과 사각지대를 공략하도록 학습됩니다.
  • 이 프레임워크는 외부 심판의 역량 한계를 우회하여 검증 불가능한 영역 전반에 걸쳐 LLM 자체 진화를 가능하게 합니다.

자가 진화하는 대규모 언어 모델(LLMs)은 검증 가능한 영역에서는 탁월하지만, 프록시 LLM 심판에 대한 의존도가 역량 병목 현상과 보상 해킹(reward hacking)을 초래하는 개방형 작업(open-ended tasks)에서는 어려움을 겪습니다. 이를 극복하기 위해, 우리는 자율적인 자체 개선을 위한 검증자 없는(verifier-free), 공진화적 프레임워크인 G-Zero를 소개합니다. 우리의 핵심 혁신은 Hint-$δ$이며, 이는 생성기 모델(Generator model)의 비지원 응답과 스스로 생성한 힌트(hint)에 조건화된 응답 사이의 예측 변화량(predictive shift)을 정량화하는 내재적 보상입니다. 이 신호를 사용하여, 제안자 모델(Proposer model)은 GRPO를 통해 학습되어 도전적인 질의와 정보성 힌트를 합성함으로써 생성기의 사각지대(blind spots)를 지속적으로 공략합니다. 생성기는 동시에 DPO를 통해 최적화되어 이러한 힌트 기반 개선 사항을 내재화합니다. 이론적으로, 우리는 제안자가 충분한 탐색 커버리지(exploration coverage)를 유도하고 데이터 필터링이 유사 레이블 점수 노이즈(pseudo-label score noise)를 낮게 유지한다는 전제 하에, 이상적인 표준-DPO 버전의 G-Zero에 대해 최적성 반복(best-iterate suboptimality) 보장을 증명합니다. 내부 분포 역학(internal distributional dynamics)으로부터 감독을 완전히 도출함으로써, G-Zero는 외부 심판의 역량 천장(capability ceilings)을 우회하여 검증 불가능한 영역 전반에 걸쳐 LLM 자체 진화를 위한 확장 가능하고 강력한 경로를 제공합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0