본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 20. 10:56

LambdaPO: 추론 언어 모델을 위한 Lambda 스타일 정책 최적화

요약

LambdaPO는 기존 GRPO 방식이 단일 통계적 베이스라인을 사용하여 미세한 선호도 정보를 손실하는 문제를 해결하기 위해 제안된 새로운 정책 최적화 프레임워크입니다. 이 방식은 이득 추정을 쌍체 선호 구조로 재개념화하고 의미론적 밀도 보상을 도입하여, LLM이 더 정밀한 최적점을 찾을 수 있도록 돕습니다.

핵심 포인트

  • GRPO의 단일 스칼라 베이스라인이 가진 정보 이론적 병목 현상 해결
  • 이득 추정을 분해된 쌍체 선호 구조(decomposed, pairwise preference structure)로 재설계
  • 정책의 확률적 신뢰도에 따라 쌍체 비교를 동적으로 감쇄하는 메커니즘 적용
  • 정밀도-재현율 정렬 기반의 의미론적 밀도 보상을 통한 목적 함수 증강
  • 수학 추론 및 질의응답 과제에서 기존 베이스라인 대비 성능 향상 입증

Group Relative Policy Optimization (GRPO)는 샘플링된 궤적 집단 (trajectory cohorts) 전체에 걸친 보상 정규화 (reward normalization)를 활용하여 명시적인 가치 비평가 (value-critic)를 생략함으로써 그 효능을 인정받아, 현대 강화학습 (reinforcement learning) 정렬의 초석이 되었습니다. 그러나 집단 평균 (group mean)과 같은 단일 통계적 베이스라인 (statistical baseline)에 의존하는 이 방식은 궤적 공간 (trajectory space)의 관계적 위상 (relational topology)을 단일 스칼라 (scalar) 값으로 붕괴시키며, 이로 인해 복잡하고 순위 민감한 보상 지형 (rank-sensitive reward landscapes)을 탐색하는 데 필수적인 미세한 선호도 정보 (fine-grained preference information)를 삭제합니다. 이 문제를 해결하기 위해, 우리는 이 정보 이론적 병목 현상 (information-theoretic bottleneck)을 해결하는 새로운 프레임워크인 Lambda Policy Optimization (LambdaPO)를 소개합니다. 이는 이득 추정 (advantage estimation)을 스칼라 값에서 분해된 쌍체 선호 구조 (decomposed, pairwise preference structure)로 재개념화함으로써 이루어집니다. 구체적으로, 임의의 주어진 궤적에 대한 이득 (advantage)은 해당 집단 내의 모든 동료 (peers)에 대한 보상 차이 (reward differentials)의 통합 합계로 공식화되며, 여기서 각 쌍체 비교 (pairwise comparison)는 확립된 선호도에 대한 정책 (policy) 자체의 확률적 신뢰도 (probabilistic confidence)에 의해 동적으로 감쇄 (attenuated)됩니다. 이진 결과 감독 (binary outcome supervision)의 희소성을 더욱 완화하기 위해, 우리는 생성된 추론 흔적 (reasoning traces)과 정답 (ground-truth) 솔루션 사이의 정밀도-재현율 정렬 (precision-recall alignment)에서 유도된 의미론적 밀도 보상 (semantic density reward)으로 목적 함수 (objective)를 증강합니다. 결과적으로, 우리의 방법은 일련의 롤아웃 (rollouts) 그룹으로부터 더 미세한 최적화 신호를 채굴하여, 대규모 언어 모델 (LLM)을 더 나은 최적점 (optima)으로 안내할 수 있습니다. 도전적인 수학 추론 및 질의응답 과제에 걸친 실험 결과는 LambdaPO가 베이스라인 방법들과 비교하여 성능을 향상시킨다는 것을 입증합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0