생존인가 붕괴인가: 셀프 플레이 RL에서 데이터 게이팅(Data Gating)과 보상 그라운딩(Reward Grounding)의 비대칭적 역할
요약
셀프 플레이 강화학습의 불안정성과 붕괴 원인을 분석하여, 보상 설계보다 데이터 게이팅의 중요성을 입증한 연구입니다. 실험을 통해 엄격한 데이터 게이팅이 보상 변형보다 학습 안정성 유지에 더 결정적인 역할을 함을 밝혀냈습니다.
핵심 포인트
- 셀프 플레이 안정성은 보상 설계보다 데이터 게이팅에 의해 결정됨
- 엄격한 데이터 게이트는 보상 방식과 상관없이 안정성을 유지함
- 그라운디드 제안자 역설: 정답 접근이 가능한 제안자가 붕괴를 가속화할 수 있음
- 데이터 게이팅 파라미터에 따른 2단계 상전이 현상 발견
셀프 플레이 강화학습 (Self-play reinforcement learning)은 인간의 라벨 없이 제안자 (proposer)와 해결사 (solver)를 공동 진화시키며, 언어 모델을 스스로 생성한 태스크로 학습시킵니다. 최근 시스템들은 강력한 추론 능력 향상을 보고하고 있지만, 붕괴 (collapse)와 불안정성 (instability)이 널리 관찰되면서도 그 원인은 제대로 이해되지 않고 있습니다. 이에 대한 지배적인 대응은 이를 보상 설계 (reward-design) 문제로 취급합니다. 우리는 대신 셀프 플레이의 안정성이 두 가지 별개의 레버에 의해 결정된다고 주장합니다. 즉, 제안자가 생성한 태스크 중 어떤 것이 학습 풀에 들어갈지를 결정하는 데이터 수준의 게이트 (data-level gate)와, 이미 수락된 태스크에 대해 정책 (policy)을 업데이트하는 보상 신호 (reward signal)입니다. Python 출력 예측 태스크와 사전 학습된 사전 지식 (pretraining priors), 출력 모호성 (output ambiguity), 실행기 노이즈 (executor noise)를 제거한 결정론적 DSL (deterministic-DSL) 쌍둥이 태스크에 대한 통제된 실험을 통해, 우리는 이 두 레버가 비대칭적임을 발견했습니다. 정답 (ground truth)에 접근할 수 없는 자기 일관성 보상 (self-consistency reward)을 포함하여 우리가 테스트한 모든 보상 변형 하에서 엄격한 게이트 (strict gate)는 안정성을 유지하기에 충분했습니다. 반면, 게이트가 제거되면 어떤 보상 변형도 안정성을 보장하기에 충분하지 않았습니다. 이러한 비대칭성은 우리가 '그라운디드 제안자 역설 (Grounded Proposer Paradox)'이라 부르는 직관에 반하는 결합 관계를 드러냅니다. 즉, 자기 일관성 해결사 (self-consistency solver)와 결합될 때, 정답에 접근할 수 있는 제안자는 접근할 수 없는 제안자보다 붕괴를 더 빠르게 가속화하는데, 이는 가짜 자기 일관성 끌개 (spurious self-consistent attractor)로 가는 가장 빠른 경로를 형성하는 깨끗한 태스크에 학습을 집중시키기 때문입니다. 이진 게이트를 연속적인 엄격도 파라미터 $\varepsilon$로 대체하면 2단계 상전이 (two-stage phase transition)가 추가로 드러납니다. 낮은 $\varepsilon$에서는 학습 측면의 지표들이 분리(decouple)되는 반면, 검증 정확도 (validation accuracy)는 $\varepsilon$이 훨씬 높아질 때까지 유지됩니다. 셀프 플레이 안정성의 구속 조건은 보상 교정 (reward calibration)이 아니라 데이터 수준의 게이팅 (data-level gating)입니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기