arXiv논문2026. 05. 14. 13:24

보상 비상관 정책 최적화 (Reward-Decorrelated Policy Optimization)를 통한 다중 목적 및 혼합 보상 강화학습

요약

본 논문은 다중 작업 및 혼합 보상 환경에서 발생하는 불안정한 스칼라 어드밴티지 구축 문제를 해결하기 위해 '보상 비상관 정책 최적화(Reward-Decorrelated Policy Optimization, RDPO)'를 제안합니다. RDPO는 크기 인식 분위수 정규화와 마할라노비스 화이트닝을 결합하여 이질적인 보상 분포 전반에 걸쳐 어드밴티지 할당의 안정성을 높입니다. 이를 LongCat-Flash 모델에 적용한 결과, 지시 이행, 글쓰기 품질, 어려운 프롬프트에 대한 강건성이 향상되는 효과를 입증했습니다.

핵심 포인트

RDPO는 다중 작업 및 혼합 보상 환경에서 불안정한 어드밴티지 구축 문제를 해결하는 새로운 방법론입니다.
크기 인식 분위수 정규화(Magnitude-Aware Quantile normalization)를 통해 이진, 분수, 연속 보상에 걸쳐 안정적인 어드밴티지를 할당합니다.
마할라노비스 화이트닝(Mahalanobis whitening)을 적용하여 활성 보상 부분 공간 내의 상관관계 중복을 완화합니다.
RDPO는 LongCat-Flash 모델의 지시 이행, 글쓰기 품질, 어려운 프롬프트에 대한 강건성을 향상시키는 데 효과적입니다.

복잡한 강화학습 (Reinforcement Learning) 환경은 빈번하게 다중 작업 (multi-task) 및 혼합 보상 (mixed-reward) 공식을 채택합니다. 이러한 설정에서는 이질적인 보상 분포와 상관관계가 있는 보상 차원들이 스칼라 어드밴티지 (scalar advantages)의 구축을 불안정하게 만드는 경우가 많습니다. 이러한 과제를 해결하기 위해, 우리는 두 가지 실패 모드를 명시적으로 겨냥하도록 설계된 보상 처리 방법인 보상 비상관 정책 최적화 (Reward-Decorrelated Policy Optimization, RDPO)를 제안합니다. RDPO는 먼저 크기 인식 분위수 정규화 (Magnitude-Aware Quantile normalization)를 사용하여 이진 (binary), 분수 (fractional), 그리고 연속 (continuous) 보상 전반에 걸쳐 프롬프트 수준의 어드밴티지 할당을 안정화합니다. 그 다음, 집계 전 상관관계 중복을 완화하기 위해 각 활성 보상 부분 공간 (reward subspace) 내에서 마할라노비스 화이트닝 (Mahalanobis whitening)을 적용합니다. LongCat-Flash의 사후 학습 (post-training) 과정에 RDPO를 적용했을 때, RDPO는 추론 (reasoning) 및 코딩 (coding) 평가에서는 전반적으로 경쟁력을 유지하면서도 지시 이행 (instruction following), 글쓰기 품질, 그리고 어려운 프롬프트 (hard prompts)에 대한 강건성 (robustness)을 향상시킵니다.

AI 자동 생성 콘텐츠

원문 바로가기

보상 비상관 정책 최적화 (Reward-Decorrelated Policy Optimization)를 통한 다중 목적 및 혼합 보상 강화학습

요약

핵심 포인트

댓글