arXiv논문2026. 06. 30. 11:36

프로세스 이점 신호 형성 (Process Advantage Signal Shaping): LLM 추론기를 위한 프로세스 감독 강화학습

요약

LLM 추론 성능 향상을 위해 GRPO 기반 강화학습에서 발생하는 세 가지 구조적 병리 현상을 해결하는 PASS(Process Advantage Signal Shaping) 방법론을 제안합니다. PASS는 이점 융합, 청크 기반 가치 할당, 길이 분할 기술을 통해 프로세스 감독 신호를 효과적으로 정제합니다.

핵심 포인트

GRPO 학습 시 발생하는 채널 오염, 해상도 불일치, 누적 함정 문제 해결
PASS는 프로세스 신호와 GRPO 목적 함수 사이의 미들웨어 역할 수행
수학적 추론 및 다단계 QA 도메인에서 pass@1 성능 향상 검증
독립적 표준화와 가치 균질적 청크 도출을 통한 신용 할당 최적화

Group Relative Policy Optimization (GRPO)는 LLM 추론기의 프로세스 감독 강화학습 (Process-Supervised Reinforcement Learning)을 위한 기본 레시피이며, 학습된 프로세스 보상 모델 (PRMs) 또는 온-정책 증류 (On-policy-distillation) KL 신호를 통한 조밀한 프로세스 감독은 그렇지 않으면 약할 수 있는 결과 보상 (Outcome Reward)을 조밀하게 만드는 일반적인 방법입니다. 그러나 GRPO의 그룹 표준화된 이점 (Group-standardized Advantage) 위에 이러한 단계별 신호를 계층화하면 세 가지 구조적 병리 현상이 나타납니다: 그룹 표준화 시 풀링된 프로세스, 결과, 형식 스트림 간의 extit{채널 오염 (Channel Contamination)}; 프로세스 신호의 입도와 신용이 부여되는 논리적 결정의 입도 사이의 extit{해상도 불일치 (Resolution Mismatch)}; 그리고 신호의 부호 체계에 따라 GRPO의 return-to-go 합계가 길이 인플레이션 또는 절단된 탐색을 유발하는 extit{누적 함정 (Cumulative Trap)}입니다. 우리는 임의의 스칼라 단계별 프로세스 신호와 GRPO의 클립된 대리 목적 함수 (Clipped Surrogate) 사이에 위치하며 세 가지 병리 현상을 차례로 해결하는 컴팩트한 미들웨어인 extbf{PASS} ( extit{Process Advantage Signal Shaping})를 제안합니다: extit{이점 융합 (Advantage Fusion)}은 각 그룹 내에서 세 스트림을 독립적으로 표준화하고, extit{Chunk-by-Value}는 신호 자체에서 가치 균질적 청크 (Value-homogeneous Chunks)를 도출하여 각 청크 내에서 신용을 방송하며, extit{Divide-Length}는 누적 목적 함수를 평균 가치 밀도 점수로 변환합니다. 우리는 두 가지 도메인과 두 가지 프로세스 신호 패러다임—수학적 추론에서의 학습된 PRM 및 다단계 질문 답변에서의 온-정책 증류 KL 신호(일반화된 변형 포함)—및 두 가지 그룹 표준화 연산자 하에서 PASS를 검증합니다. 모든 체계에서 PASS는 해당 GRPO 베이스라인 대비 일관된 pass@1 이득을 제공합니다.

AI 자동 생성 콘텐츠

원문 바로가기

프로세스 이점 신호 형성 (Process Advantage Signal Shaping): LLM 추론기를 위한 프로세스 감독 강화학습

요약

핵심 포인트

댓글