arXiv논문2026. 06. 26. 10:54

GEOALIGN: 강건한 LLM 강화학습 (Reinforcement Learning)을 위한 기하학적 롤아웃 큐레이션 (Geometric

요약

LLM 강화학습 시 발생하는 '방향 불일치' 문제를 해결하기 위한 Geoalign 기법을 제안합니다. 롤아웃 큐레이션을 통해 보상 노이즈로 인한 학습 불안정성을 줄이고, 대화 정렬 및 수학적 추론 성능을 향상시킵니다.

핵심 포인트

보상 노이즈로 인한 방향 불일치 및 학습 불안정성 식별
경량 플러그인 Geoalign을 통한 롤아웃 큐레이션 제안
은닉 상태의 각도 편차를 이용한 불안정한 롤아웃 탐지 및 교정
PF-PPO, Seed-GRPO 등 기존 알고리즘 대비 우수한 성능 입증

온라인 강화학습 (Online reinforcement learning)은 대규모 언어 모델 (LLMs)을 보상 신호 (reward signals)에 맞추는 데 널리 사용되지만, 노이즈가 있거나 잘못 지정된 보상 하에서는 학습이 불안정해질 수 있습니다. 우리는 '방향 불일치 (directional inconsistency)'라고 부르는 실패 모드를 식별했습니다. 이는 배치 (batch) 내에서 소수의 높은 보상을 받은 롤아웃 (rollouts)이 배치 다수와 급격히 상충하는 표현 공간 (representation-space) 선호 방향을 유도하여, 높은 분산과 불안정한 업데이트를 초래하는 현상입니다. 우리는 반복적인 정책 최적화 (iterative policy optimization) 과정에서 롤아웃 큐레이션 (rollout curation)을 위한 경량 플러그인인 geoalign을 제안합니다. Geoalign은 (i) 프롬프트 내 선호 쌍 (within-prompt preference pairs)을 형성하고, (ii) 보상 순서에 따른 변위 방향 (displacement directions)을 집중시키기 위해 각 롤아웃의 은닉 상태 (hidden states)에 대한 온라인 프로젝터 (online projector)를 학습하며, (iii) 배치 합의 프로토타입 (batch consensus prototype)으로부터의 각도 편차 (angular deviation)를 통해 방향적으로 불일치하는 롤아웃을 탐지하고 이를 프롬프트 내 안정적인 대안으로 교정합니다. Geoalign은 순전파 (forward-pass)만 수행하며 무시할 수 있는 수준의 오버헤드만을 추가합니다. 학습된 보상 모델 (reward model)을 이용한 대화 정렬 (dialogue alignment)과 이진 검증 보상 (binary verified rewards)을 이용한 수학적 추론 (mathematical reasoning) 모두에서, Geoalign은 최종 성능을 향상시키고 학습 진동 (training oscillation)을 줄이며 PF-PPO, PAR, PODS, Seed-GRPO를 능가하는 성능을 보여주었습니다. 이러한 결과는 잠재적인 방향 합의 (latent directional consensus)가 온라인 LLM RL을 위한 효과적인 신뢰성 신호임을 시사합니다.

AI 자동 생성 콘텐츠

원문 바로가기

GEOALIGN: 강건한 LLM 강화학습 (Reinforcement Learning)을 위한 기하학적 롤아웃 큐레이션 (Geometric

요약

핵심 포인트

댓글