생존인가 붕괴인가: 셀프 플레이 RL에서 데이터 게이팅(Data Gating)과 보상 그라운딩(Reward Grounding)의 비대칭적 역할

셀프 플레이 강화학습 (Self-play reinforcement learning)은 인간의 라벨 없이 제안자 (proposer)와 해결사 (solver)를 공동 진화시키며, 언어 모델을 스스로 생성한 태스크로 학습시킵니다. 최근 시스템들은 강력한 추론 능력 향상을 보고하고 있지만, 붕괴 (collapse)와 불안정성 (instability)이 널리 관찰되면서도 그 원인은 제대로 이해되지 않고 있습니다. 이에 대한 지배적인 대응은 이를 보상 설계 (reward-design) 문제로 취급합니다. 우리는 대신 셀프 플레이의 안정성이 두 가지 별개의 레버에 의해 결정된다고 주장합니다. 즉, 제안자가 생성한 태스크 중 어떤 것이 학습 풀에 들어갈지를 결정하는 데이터 수준의 게이트 (data-level gate)와, 이미 수락된 태스크에 대해 정책 (policy)을 업데이트하는 보상 신호 (reward signal)입니다. Python 출력 예측 태스크와 사전 학습된 사전 지식 (pretraining priors), 출력 모호성 (output ambiguity), 실행기 노이즈 (executor noise)를 제거한 결정론적 DSL (deterministic-DSL) 쌍둥이 태스크에 대한 통제된 실험을 통해, 우리는 이 두 레버가 비대칭적임을 발견했습니다. 정답 (ground truth)에 접근할 수 없는 자기 일관성 보상 (self-consistency reward)을 포함하여 우리가 테스트한 모든 보상 변형 하에서 엄격한 게이트 (strict gate)는 안정성을 유지하기에 충분했습니다. 반면, 게이트가 제거되면 어떤 보상 변형도 안정성을 보장하기에 충분하지 않았습니다. 이러한 비대칭성은 우리가 '그라운디드 제안자 역설 (Grounded Proposer Paradox)'이라 부르는 직관에 반하는 결합 관계를 드러냅니다. 즉, 자기 일관성 해결사 (self-consistency solver)와 결합될 때, 정답에 접근할 수 있는 제안자는 접근할 수 없는 제안자보다 붕괴를 더 빠르게 가속화하는데, 이는 가짜 자기 일관성 끌개 (spurious self-consistent attractor)로 가는 가장 빠른 경로를 형성하는 깨끗한 태스크에 학습을 집중시키기 때문입니다. 이진 게이트를 연속적인 엄격도 파라미터 $\varepsilon$로 대체하면 2단계 상전이 (two-stage phase transition)가 추가로 드러납니다. 낮은 $\varepsilon$에서는 학습 측면의 지표들이 분리(decouple)되는 반면, 검증 정확도 (validation accuracy)는 $\varepsilon$이 훨씬 높아질 때까지 유지됩니다. 셀프 플레이 안정성의 구속 조건은 보상 교정 (reward calibration)이 아니라 데이터 수준의 게이팅 (data-level gating)입니다.

Insights

생존인가 붕괴인가: 셀프 플레이 RL에서 데이터 게이팅(Data Gating)과 보상 그라운딩(Reward Grounding)의 비대칭적 역할

요약

핵심 포인트

댓글

크립토 대표 VC Paradigm이 12억 달러 4호 펀드를 닫고, 첫 수표를 토큰이 아니라 드론 배송 Zipline과 우주방산 True

6월 토큰화 주식 거래대금이 34억 달러로 찍혔다. 한 달 전보다 279%, 1년 전보다 1400% 늘었고, 이 중 90% 이상이 Solana

Anthropic가 Claude 머리 속을 열었다. 말로 옮길 수 있는 내부 패턴 묶음을 J-space라고 이름 붙였다.

모두가 더 나은 AI 비디오를 만들기 위해 경쟁하는 가운데, Reactor는 다른 질문을 던진다.

6월 토큰화 주식 거래대금이 34억 달러로 찍혔다. 한 달 전보다 279%, 1년 전보다 1400% 늘었고, 이 중 90% 이상이 Solana

Anthropic가 Claude 머리 속을 열었다. 말로 옮길 수 있는 내부 패턴 묶음을 J-space라고 이름 붙였다.

모두가 더 나은 AI 비디오를 만들기 위해 경쟁하는 가운데, Reactor는 다른 질문을 던진다.