arXiv논문2026. 06. 30. 12:34

LatentRevise: Zero-Hit 추론으로부터의 학습

요약

RLVR 학습 시 정답을 찾지 못하는 '제로 히트' 프롬프트 문제를 해결하기 위한 LatentRevise 방법을 제안합니다. 실패한 롤아웃과 정답을 활용해 입력 임베딩을 최적화함으로써 학습 신호를 복구합니다. 이를 통해 수학 벤치마크에서 SFT 및 RLVR 성능을 향상시켰습니다.

핵심 포인트

제로 히트(Zero-Hit) 프롬프트의 학습 신호 부재 문제 정의
실패한 롤아웃을 활용한 1차 잠재 수정(LatentRevise) 기법 제안
입력 임베딩을 정답 방향으로 최적화하여 추론 경로 개선
수학 벤치마크에서 기존 베이스라인 대비 성능 향상 입증

검증 가능한 보상(verifiable rewards)을 사용하는 강화학습(RLVR)은 정답 궤적(correct trajectories)이 나타날 확률이 낮은 어려운 프롬프트(hard prompts)로 인해 병목 현상이 발생합니다. 이로 인해 샘플링 과정에서 제한된 예산 내에 정답을 찾지 못하게 되며, 정책 업데이트(policy update)에 유용한 신호가 거의 남지 않게 됩니다. 우리는 이러한 '제로 히트(zero-hit)' 프롬프트를 RLVR의 샘플링 프런티어(sampling frontier)로 정의합니다. 이곳은 새로운 추론 행동이 가장 가치 있지만, 샘플링될 가능성은 가장 낮은 지점입니다. 중요한 점은 실패한 롤아웃(failed rollouts)도 정보를 제공할 수 있다는 것입니다. 즉, 모델의 추론이 어디서 잘못되었는지를 드러내 줍니다. 우리는 이러한 제로 히트 영역에서 학습 신호를 복구하는 1차 잠재 수정(first-order latent revision) 방법인 LatentRevise를 소개합니다. 실패한 롤아웃과 앵커(anchor)로서의 정답(gold answer)이 주어지면, LatentRevise는 두 가지 상보적인 그래디언트(gradients) 하에서 추론 접두사(reasoning prefix)의 입력 임베딩(input embeddings)을 최적화하여, 접두사를 실패한 연속(failed continuation)으로부터 멀어지게 하고 정답을 향하도록 이동시킵니다. 이 최적화는 모델의 어휘 임베딩(vocabulary embeddings)의 볼록 껍질(convex hull) 내로 제한되므로, 각 업데이트는 잠재값(latent)을 임의의 특징 방향(feature direction)이 아닌 실제 토큰 임베딩(real token embedding) 쪽으로 이동시킵니다. 우리는 수정된 접두사로부터 시작된 연속(continuations)이 더 길어지고, 자기 성찰(self-reflection)을 보이며, 원래의 롤아웃에서 놓쳤던 정답에 도달한다는 것을 발견했습니다. 이를 학습 데이터로 사용했을 때, 이러한 궤적들은 수학 벤치마크에서 표준 베이스라인(standard baselines) 대비 SFT 및 RLVR 성능을 향상시킵니다.

AI 자동 생성 콘텐츠

원문 바로가기

LatentRevise: Zero-Hit 추론으로부터의 학습

요약

핵심 포인트

댓글