GEOALIGN: 강건한 LLM 강화학습 (Reinforcement Learning)을 위한 기하학적 롤아웃 큐레이션 (Geometric
요약
LLM 강화학습 시 발생하는 '방향 불일치' 문제를 해결하기 위한 Geoalign 기법을 제안합니다. 롤아웃 큐레이션을 통해 보상 노이즈로 인한 학습 불안정성을 줄이고, 대화 정렬 및 수학적 추론 성능을 향상시킵니다.
핵심 포인트
- 보상 노이즈로 인한 방향 불일치 및 학습 불안정성 식별
- 경량 플러그인 Geoalign을 통한 롤아웃 큐레이션 제안
- 은닉 상태의 각도 편차를 이용한 불안정한 롤아웃 탐지 및 교정
- PF-PPO, Seed-GRPO 등 기존 알고리즘 대비 우수한 성능 입증
온라인 강화학습 (Online reinforcement learning)은 대규모 언어 모델 (LLMs)을 보상 신호 (reward signals)에 맞추는 데 널리 사용되지만, 노이즈가 있거나 잘못 지정된 보상 하에서는 학습이 불안정해질 수 있습니다. 우리는 '방향 불일치 (directional inconsistency)'라고 부르는 실패 모드를 식별했습니다. 이는 배치 (batch) 내에서 소수의 높은 보상을 받은 롤아웃 (rollouts)이 배치 다수와 급격히 상충하는 표현 공간 (representation-space) 선호 방향을 유도하여, 높은 분산과 불안정한 업데이트를 초래하는 현상입니다. 우리는 반복적인 정책 최적화 (iterative policy optimization) 과정에서 롤아웃 큐레이션 (rollout curation)을 위한 경량 플러그인인 geoalign을 제안합니다. Geoalign은 (i) 프롬프트 내 선호 쌍 (within-prompt preference pairs)을 형성하고, (ii) 보상 순서에 따른 변위 방향 (displacement directions)을 집중시키기 위해 각 롤아웃의 은닉 상태 (hidden states)에 대한 온라인 프로젝터 (online projector)를 학습하며, (iii) 배치 합의 프로토타입 (batch consensus prototype)으로부터의 각도 편차 (angular deviation)를 통해 방향적으로 불일치하는 롤아웃을 탐지하고 이를 프롬프트 내 안정적인 대안으로 교정합니다. Geoalign은 순전파 (forward-pass)만 수행하며 무시할 수 있는 수준의 오버헤드만을 추가합니다. 학습된 보상 모델 (reward model)을 이용한 대화 정렬 (dialogue alignment)과 이진 검증 보상 (binary verified rewards)을 이용한 수학적 추론 (mathematical reasoning) 모두에서, Geoalign은 최종 성능을 향상시키고 학습 진동 (training oscillation)을 줄이며 PF-PPO, PAR, PODS, Seed-GRPO를 능가하는 성능을 보여주었습니다. 이러한 결과는 잠재적인 방향 합의 (latent directional consensus)가 온라인 LLM RL을 위한 효과적인 신뢰성 신호임을 시사합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기