본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 21. 12:06

LamPO: 추론 언어 모델을 위한 람다 스타일 정책 최적화

요약

본 논문은 추론 언어 모델의 개선을 위한 강화학습 패러다임에서, 기존 방법들이 놓치던 후보 응답 간의 미세한 관계적 정보를 포착하는 새로운 최적화 기법인 LamPO(Lambda-Style Policy Optimization)를 제안합니다. LamPO는 스칼라 그룹 어드밴티지를 '쌍별 분해 어드밴티지'로 대체하여, 각 응답 쌍 간의 보상 격차와 신뢰도 인식 가중치를 활용해 정교한 비교 학습을 수행합니다. 실험 결과, LamPO는 기존 방법들보다 더 안정적인 훈련 역학 및 샘플 효율성을 보여주며 다양한 추론 과제에서 우수한 성능 향상을 입증했습니다.

핵심 포인트

  • LamPO(Lambda-Style Policy Optimization)는 추론 언어 모델의 강화학습을 위한 새로운 최적화 기법입니다.
  • 기존 그룹 상대 목적 함수(GRPO 등)가 놓치던 후보 응답 간의 미세한 관계 정보를 LamPO는 '쌍별 분해 어드밴티지'로 포착합니다.
  • LamPO는 PPO 스타일의 비평가 없는 구조를 유지하면서도, 쌍별 보상 격차와 신뢰도 인식 가중치를 통해 정교한 비교 학습을 수행합니다.
  • Qwen3-1.7B, Qwen3-4B 등 다양한 모델에 적용된 실험에서 LamPO는 기존 방법 대비 안정적인 훈련 역학 및 샘플 효율성을 보여주었습니다.

검증 가능한 보상(Verifiable Rewards, RLVR)을 활용한 강화학습(Reinforcement Learning, RL)은 수학, 코딩, 과학적 질의응답과 같은 작업에서 추론 언어 모델(Reasoning Language Models)을 개선하는 효과적인 패러다임이 되었습니다. 그러나 GRPO와 같이 널리 사용되는 그룹 상대적 목적 함수(Group-relative objectives)는 각 샘플링된 그룹을 스칼라 통계량(Scalar statistics)으로 요약하기 때문에, 후보 응답들 사이의 미세한 관계적 정보(Fine-grained relational information)를 버리게 됩니다. 이는 희소한 결과 보상(Sparse outcome rewards) 환경에서, 특히 생성된 여러 솔루션이 추론 품질 면에서 아주 미세한 차이만 보일 때 신용 할당(Credit assignment)을 약화시킵니다. 본 논문에서는 스칼라 그룹 어드밴티지(Scalar group advantages)를 '쌍별 분해 어드밴티지(Pairwise Decomposed Advantage)'로 대체하는 extbf{LamPO}, 즉 extbf{람다 스타일 정책 최적화(Lambda-Style Policy Optimization)} 방법을 제안합니다. LamPO는 각 응답 그룹 내의 쌍별 보상 격차(Pairwise reward gaps)를 집계하고, 시퀀스 로그 확률(Sequence log-probability) 차이로부터 계산된 신뢰도 인식 가중치(Confidence-aware weight)를 통해 각 비교를 조절하는 동시에, PPO 스타일 최적화의 비평가 없는(Critic-free) 및 클리핑 업데이트(Clipped-update) 구조를 유지합니다. 참조 솔루션(Reference solutions)을 사용할 수 있는 경우, 보상 희소성을 줄이기 위해 ROUGE-L 기반의 경량 밀집 보조 보상(Lightweight ROUGE-L-based dense auxiliary reward)을 추가로 더합니다. Qwen3-1.7B, Qwen3-4B, Phi-4-mini를 사용하여 AIME24, AIME25, MATH-500, GPQA-Diamond에서 수행한 실험 결과, LamPO는 GRPO 및 최근의 RLVR 변형 모델들보다 더 안정적인 훈련 역학(Training dynamics)과 더 나은 샘플 효율성(Sample efficiency)을 보이며 일관되게 성능을 향상시킴을 보여줍니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0