arXiv논문2026. 05. 12. 03:09

당신의 언어 모델이 스스로 비평가이다: 액터의 내부 상태로부터의 가치 추정 기반 강화학습

요약

본 논문은 대규모 추론 모델에 적용되는 강화학습(RLVR)의 높은 계산 비용 문제를 해결하기 위해 '내부 상태 가치 추정 기반 정책 최적화(POISE)'라는 새로운 방법을 제안합니다. POISE는 기존 방식들이 필요로 했던 복잡한 비평가 네트워크나 다중 롤아웃 대신, 정책 순전파 과정에서 이미 얻어진 내부 신호(internal signals)를 활용하여 기준선(baseline)을 효율적으로 추정합니다. 이를 통해 모델의 안정성과 최적화 효율성을 크게 향상시키면서도 계산 비용을 절감할 수 있습니다.

핵심 포인트

기존 RLVR 접근 방식(PPO, GRPO 등)은 비평가 네트워크나 다중 롤아웃으로 인해 높은 계산 비용이 발생합니다.
제안된 POISE는 정책의 내부 상태 신호(internal signals)를 활용하여 기준선 추정(baseline estimation)을 수행함으로써 효율성을 높입니다.
경량 프로브(probe)는 은닉 상태로부터 검증 가능한 보상과 토큰 엔트로피 통계까지 예측하며 온라인으로 학습됩니다.
모델 자체의 내부 표현을 사용함으로써 기울기 편향을 유지하고 더욱 안정적이고 효율적인 정책 최적화가 가능합니다.

검증 가능한 보상(verifiable rewards)을 갖는 대규모 추론 모델을 위한 강화학습(RLVR)은 분산 감소를 위해 기준선 추정(baseline estimation)에 의존하지만, 기존 접근 방식들은 큰 비용을 지불합니다. PPO는 정책-모델 규모의 비평가(critic)를 필요로 하며, GRPO는 경험적 그룹 평균(empirical group mean)을 안정적으로 유지하기 위해 프롬프트당 여러 번의 롤아웃(rollouts)이 필요합니다. 우리는 내부 상태 가치 추정 기반 정책 최적화(Policy Optimization with Internal State Value Estimation)를 소개하는데, 이는 정책 순전파 과정에서 이미 계산된 정책 모델의 내부 신호(internal signals)를 사용하여 미미한 비용으로 기준선을 얻습니다. 경량 프로브(probe)는 프롬프트와 생성된 궤적의 은닉 상태(hidden states)로부터 예상되는 검증 가능한 보상뿐만 아니라 토큰 엔트로피 통계까지 예측하며, 이는 정책과 함께 온라인으로 학습됩니다. 기울기 편향을 유지하기 위해

모델 자체의 내부 표현(internal representations)을 활용함으로써, POISE는 더욱 안정적이고 효율적인 정책 최적화(policy optimization)를 가능하게 합니다.

AI 자동 생성 콘텐츠

원문 바로가기

당신의 언어 모델이 스스로 비평가이다: 액터의 내부 상태로부터의 가치 추정 기반 강화학습

요약

핵심 포인트

댓글