Latent-GRPO: 잠재적 추론을 위한 그룹 상대 정책 최적화
요약
본 논문은 기존의 지도 학습에 의존하고 불안정한 강화학습 기반의 잠재적 추론(latent reasoning) 문제를 해결하기 위해 Latent-GRPO를 제안합니다. Latent-GRPO는 그룹 상대 정책 최적화(GRPO)를 잠재 공간에 효과적으로 적용하며, 내재적 다양체 부재, 탐색-최적화 불일치, 잠재 혼합물 비폐쇄성 등 세 가지 근본적인 병목 현상을 해결합니다. 실험 결과, Latent-GRPO는 다양한 난이도의 벤치마크에서 기존 방법 대비 높은 성능 향상과 함께 추론 사슬을 크게 단축하는 효율성을 입증했습니다.
핵심 포인트
- 잠재적 추론은 명시적 추론보다 효율적이지만, 강화학습 적용 시 불안정성이 높다는 문제가 있다.
- Latent-GRPO는 그룹 상대 정책 최적화(GRPO)를 잠재 공간에 성공적으로 적용하여 안정성을 확보했다.
- 제안된 방법은 내재적 다양체 부재, 탐색-최적화 불일치, 잠재 혼합물 비폐쇄성 등 세 가지 핵심 문제를 해결한다.
- 실험 결과, Latent-GRPO는 다양한 난이도의 벤치마크에서 기존 대비 높은 성능 향상과 추론 사슬 단축 효과를 보였다.
잠재적 추론 (latent reasoning) 은 중간 추론을 연속적인 표현으로 압축하고 추론 사슬을 현저히 단축함으로써 명시적 추론에 비해 더 효율적인 대안을 제공합니다. 그러나 기존 잠재적 추론 방법은 주로 지도 학습 (supervised learning) 에 초점을 맞추고 있으며, 잠재 공간에서의 강화학습 (reinforcement learning) 은 여전히 매우 불안정합니다. 우리는 이 문제를 그룹 상대 정책 최적화 (GRPO) 의 관점에서 연구하였으며, GRPO 를 직접적으로 잠재적 추론에 적용하는 것은 근본적으로 단순하지 않음을 보여줍니다: 잠재적 추론은 확률 밀도와 샘플링 메커니즘을 모두 변화시켜 세 가지 결합된 병목 현상을 유발합니다. 첫째, 내재적 잠재 다양체 (intrinsic latent manifolds) 의 부재로 인해 제약 없는 탐색이 롤아웃을 유효한 잠재 다양체 밖으로 밀어냅니다. 둘째, 궤도 수준의 보상이 잘못된 토큰 수준의 업데이트를 유도할 수 있는 탐색-최적화 불일치 (exploration-optimization misalignment) 입니다. 셋째, 여러 개의 올바른 잠재 경로를 동시에 강화하면 유효하지 않은 평균화된 상태를 생성할 수 있는 잠재 혼합물 비폐쇄성 (latent mixture non-closure) 입니다. 이를 해결하기 위해 우리는 무효 샘플 이득 마스킹 (invalid-sample advantage masking), 일측 노이즈 샘플링 (one-sided noise sampling), 그리고 최적의 올바른 경로 첫 번째 토큰 선택 (optimal correct-path first-token selection) 을 결합한 extbf{Latent-GRPO} 를 제안합니다. 네 가지 난이도가 낮은 벤치마크 (예: GSM8K-Aug) 와 네 가지 난이도가 높은 벤치마크 (예: AIME) 에서 Latent-GRPO 는 잠재적 초기화 대비 난이도가 낮은 작업에서 Pass@1 점수에서 7.86 점, 난이도가 높은 작업에서는 명시적 GRPO 대비 4.27 점의 성능 향상을 보여주며, 추론 사슬은 3--4$ imes$ 더 짧습니다. 또한 Gumbel 샘플링 하에서 더 강력한 pass@$k$ 성능을 달성합니다. 이러한 결과는 Latent-GRPO 가 안정적이고 효율적인 잠재적 추론을 위한 효과적인 접근법임을 입증합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기