arXiv논문2026. 06. 16. 12:46

GD$^2$PO: 그룹 동적 보상 분리 정책 최적화를 통한 다중 보상 충돌 완화

요약

다중 보상 충돌 문제를 해결하기 위해 제안된 GD²PO 알고리즘을 소개합니다. 보상 간 불일치가 큰 롤아웃을 마스킹하고 쿼리별 업데이트 강도를 동적으로 조정하여 RL 학습 효율을 극대화합니다.

핵심 포인트

다중 보상 충돌로 인한 RL 학습 효율 저하 문제 해결
충돌 인지 필터링을 통한 비효율적 롤아웃 마스킹 전략
보상 합의 기반의 쿼리 수준 재가중치 부여 도입
도구 호출 및 인간 선호도 정렬 시나리오에서 성능 입증

LLM(대규모 언어 모델)이 발전함에 따라, 사후 학습 강화학습 (post-training RL)은 종합적인 능력을 배양하기 위해 다차원 보상 (multi-dimensional rewards)에 점점 더 의존하고 있습니다. 이러한 변화는 다양하고 잠재적으로 경쟁하는 목표들을 동시에 최적화할 수 있는 새로운 알고리즘을 요구합니다. 이를 해결하기 위해, 그룹 보상 분리 정책 최적화 (Group reward-Decoupled Policy Optimization, GDPO)와 같은 기존 방법들은 전체 점수를 독립적인 보상 그룹으로 분해한 다음, 각 그룹 내에서 RL 손실 (RL loss)을 별도로 계산합니다. 그러나 이 전략은 여전히 다중 보상 충돌 (multi-reward conflicts) 문제에 직면합니다. 즉, 단일 롤아웃 (rollout)이 특정 보상 차원에서는 양(+)의 이점 (advantages)을 생성하지만 다른 차원에서는 음(-)의 이점을 생성할 수 있으며, 이로 인해 집계 과정에서 상충하는 신호들이 서로를 상쇄시켜 RL 학습 효율을 더욱 저해합니다. 이점이 거의 zero에 가까운 비효율적인 롤아웃을 필터링하여 RL 학습 효율을 개선하는 DAPO (Dynamic sAmpling Policy Optimization)에서 영감을 받아, 우리는 그룹 동적 보상 분리 정책 최적화 (Group-Dynamic reward-Decoupled Policy Optimization, GD$^2$PO)를 제안합니다. 구체적으로, GD$^2$PO는 보상별 불일치 (reward-wise disagreement)가 심각한 롤아웃을 마스킹 (masking)하여 제외하는 충돌 인지 필터링 메커니즘을 채택합니다. 상충하는 신호가 서로를 상쇄하는 것을 방지함으로써, 이 마스킹 전략은 효과적인 RL 이점의 크기를 보존하고 강화하며, 이를 통해 학습 효율을 크게 가속화합니다. 또한, 우리는 각 쿼리의 전반적인 보상 합의 (reward consensus)를 기반으로 쿼리별 업데이트 강도를 동적으로 조정하는 쿼리 수준 재가중치 부여 (query-level reweighting)를 도입합니다. 도구 호출 (tool calling) 및 인간 선호도 정렬 (human preference alignment)을 포함한 다양한 다중 보상 시나리오에서의 실험을 통해, GD$^2$PO가 기존 베이스라인들을 일관되고 유의미하게 능가함을 입증했습니다. 코드는 https://github.com/Qwen-Applications/GD2PO 에서 확인할 수 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

GD$^2$PO: 그룹 동적 보상 분리 정책 최적화를 통한 다중 보상 충돌 완화

요약

핵심 포인트

댓글