LambdaPO: 추론 언어 모델을 위한 Lambda 스타일 정책 최적화

Group Relative Policy Optimization (GRPO)는 샘플링된 궤적 집단 (trajectory cohorts) 전체에 걸친 보상 정규화 (reward normalization)를 활용하여 명시적인 가치 비평가 (value-critic)를 생략함으로써 그 효능을 인정받아, 현대 강화학습 (reinforcement learning) 정렬의 초석이 되었습니다. 그러나 집단 평균 (group mean)과 같은 단일 통계적 베이스라인 (statistical baseline)에 의존하는 이 방식은 궤적 공간 (trajectory space)의 관계적 위상 (relational topology)을 단일 스칼라 (scalar) 값으로 붕괴시키며, 이로 인해 복잡하고 순위 민감한 보상 지형 (rank-sensitive reward landscapes)을 탐색하는 데 필수적인 미세한 선호도 정보 (fine-grained preference information)를 삭제합니다. 이 문제를 해결하기 위해, 우리는 이 정보 이론적 병목 현상 (information-theoretic bottleneck)을 해결하는 새로운 프레임워크인 Lambda Policy Optimization (LambdaPO)를 소개합니다. 이는 이득 추정 (advantage estimation)을 스칼라 값에서 분해된 쌍체 선호 구조 (decomposed, pairwise preference structure)로 재개념화함으로써 이루어집니다. 구체적으로, 임의의 주어진 궤적에 대한 이득 (advantage)은 해당 집단 내의 모든 동료 (peers)에 대한 보상 차이 (reward differentials)의 통합 합계로 공식화되며, 여기서 각 쌍체 비교 (pairwise comparison)는 확립된 선호도에 대한 정책 (policy) 자체의 확률적 신뢰도 (probabilistic confidence)에 의해 동적으로 감쇄 (attenuated)됩니다. 이진 결과 감독 (binary outcome supervision)의 희소성을 더욱 완화하기 위해, 우리는 생성된 추론 흔적 (reasoning traces)과 정답 (ground-truth) 솔루션 사이의 정밀도-재현율 정렬 (precision-recall alignment)에서 유도된 의미론적 밀도 보상 (semantic density reward)으로 목적 함수 (objective)를 증강합니다. 결과적으로, 우리의 방법은 일련의 롤아웃 (rollouts) 그룹으로부터 더 미세한 최적화 신호를 채굴하여, 대규모 언어 모델 (LLM)을 더 나은 최적점 (optima)으로 안내할 수 있습니다. 도전적인 수학 추론 및 질의응답 과제에 걸친 실험 결과는 LambdaPO가 베이스라인 방법들과 비교하여 성능을 향상시킨다는 것을 입증합니다.

Insights

LambdaPO: 추론 언어 모델을 위한 Lambda 스타일 정책 최적화

요약

핵심 포인트

댓글

Solidity 컴파일러의 오컴파일 버그 탐지 및 이해

ORCAID: 연속 액션 공간을 위한 사선 규칙 기반 해석 정책 (Oblique Rule-Based Continuous-Action

Show GN: Lucene search core 기여 팀이 만든 Local-first AI Memory Workspace, Maek

Solidity 컴파일러의 오컴파일 버그 탐지 및 이해

ORCAID: 연속 액션 공간을 위한 사선 규칙 기반 해석 정책 (Oblique Rule-Based Continuous-Action

Show GN: Lucene search core 기여 팀이 만든 Local-first AI Memory Workspace, Maek