LamPO: 추론 언어 모델을 위한 람다 스타일 정책 최적화

검증 가능한 보상(Verifiable Rewards, RLVR)을 활용한 강화학습(Reinforcement Learning, RL)은 수학, 코딩, 과학적 질의응답과 같은 작업에서 추론 언어 모델(Reasoning Language Models)을 개선하는 효과적인 패러다임이 되었습니다. 그러나 GRPO와 같이 널리 사용되는 그룹 상대적 목적 함수(Group-relative objectives)는 각 샘플링된 그룹을 스칼라 통계량(Scalar statistics)으로 요약하기 때문에, 후보 응답들 사이의 미세한 관계적 정보(Fine-grained relational information)를 버리게 됩니다. 이는 희소한 결과 보상(Sparse outcome rewards) 환경에서, 특히 생성된 여러 솔루션이 추론 품질 면에서 아주 미세한 차이만 보일 때 신용 할당(Credit assignment)을 약화시킵니다. 본 논문에서는 스칼라 그룹 어드밴티지(Scalar group advantages)를 '쌍별 분해 어드밴티지(Pairwise Decomposed Advantage)'로 대체하는 extbf{LamPO}, 즉 extbf{람다 스타일 정책 최적화(Lambda-Style Policy Optimization)} 방법을 제안합니다. LamPO는 각 응답 그룹 내의 쌍별 보상 격차(Pairwise reward gaps)를 집계하고, 시퀀스 로그 확률(Sequence log-probability) 차이로부터 계산된 신뢰도 인식 가중치(Confidence-aware weight)를 통해 각 비교를 조절하는 동시에, PPO 스타일 최적화의 비평가 없는(Critic-free) 및 클리핑 업데이트(Clipped-update) 구조를 유지합니다. 참조 솔루션(Reference solutions)을 사용할 수 있는 경우, 보상 희소성을 줄이기 위해 ROUGE-L 기반의 경량 밀집 보조 보상(Lightweight ROUGE-L-based dense auxiliary reward)을 추가로 더합니다. Qwen3-1.7B, Qwen3-4B, Phi-4-mini를 사용하여 AIME24, AIME25, MATH-500, GPQA-Diamond에서 수행한 실험 결과, LamPO는 GRPO 및 최근의 RLVR 변형 모델들보다 더 안정적인 훈련 역학(Training dynamics)과 더 나은 샘플 효율성(Sample efficiency)을 보이며 일관되게 성능을 향상시킴을 보여줍니다.

Insights

LamPO: 추론 언어 모델을 위한 람다 스타일 정책 최적화

요약

핵심 포인트

댓글

자기 진화 AI 에이전트에 대한 종합 조사: 파운데이션 모델과 평생 에이전트 시스템을 연결하는 새로운 패러다임

Apple이 Hugging Face에 HAT을 공개하다

Grok 4.5의 실제 사용 비용은 Opus 4.8의 1/17 수준입니다.

Grok 4.5가 Cursor에서 공식 출시되었습니다.

Apple이 Hugging Face에 HAT을 공개하다

Grok 4.5의 실제 사용 비용은 Opus 4.8의 1/17 수준입니다.

Grok 4.5가 Cursor에서 공식 출시되었습니다.