arXiv논문2026. 06. 09. 11:11

생성형 추천을 위한 노이즈 강건한 GRPO를 위한 적응형 손실 균형 (Adaptive Loss Balancing for Noise-Robust

요약

생성형 추천 시스템에서 노이즈가 섞인 보상 모델로 인한 RL 학습 불안정성을 해결하기 위한 AdaGRPO 프레임워크를 제안합니다. 정책 난이도와 보상 식별력을 기준으로 보상 가이드를 선택적으로 수용하여 환각을 줄이고 추천 성능을 높였습니다.

핵심 포인트

보상 모델의 노이즈가 RL 학습에 미치는 부정적 영향 분석
AdaGRPO: 샘플별 이진 클리핑을 통한 선택적 보상 수용 프레임워크
환각 현상을 0.22% 미만으로 억제하며 추천 정확도(HR@10) 향상
이커머스 데이터 및 A/B 테스트를 통한 실질적 유용성 검증

강화학습 (Reinforcement Learning, RL)은 보상 신호 (reward signals)를 활용하여 정책 개선 (policy improvement)을 유도함으로써, 지도 모방 (supervised imitation)을 넘어 생성형 추천 (generative recommendation)을 향상시킬 수 있는 유망한 방안을 제시합니다. 그러나 RL의 효능은 모델이 평가하는 샘플에 대한 보상 모델 (reward model)의 신뢰성에 결정적으로 의존합니다. 실제로 널리 채택되는 보상 모델인 프로덕션 랭커 (production rankers)는 노출 편향 (exposure-biased) 로그를 기반으로 학습되므로, 이러한 가정을 위반하는 샘플 의존적 부정확성을 초래합니다. 우리의 계층적 분석 (stratified analysis)은 일관된 패턴을 발견했습니다: 보상 가이드는 정책 (policy)이 불확실성을 보이고 랭커가 롤아웃 부정 샘플 (rollout negatives)로부터 정답 아이템 (ground-truth item)을 효과적으로 식별할 수 있을 때 가장 유익합니다. 그 외의 샘플에서 보상 신호는 무시할 수 있거나 오히려 해로울 수 있으며, 이는 일률적인 RL 적용의 위험성을 강조합니다. 이러한 문제를 해결하기 위해, 우리는 보상 가이드 최적화를 일률적인 압박이 아닌 선택적 수용 (selective admission)으로 취급하는 새로운 프레임워크인 AdaGRPO를 소개합니다. 학습은 지도 부정 로그 가능도 (supervised negative log-likelihood, NLL)에 기반을 두며, GRPO 목적 함수 (objective)는 두 가지 롤아웃 진단 도구인 정책 측면의 난이도 (policy-side difficulty)와 보상 식별력 (reward discriminability)에 의해 결정되는 샘플별 이진 클리핑 (binary, per-sample clip)에 의해 게이팅 (gated)됩니다. 두 진단 중 하나라도 통과하지 못하는 인스턴스는 순수 지도 학습 (pure supervision)으로 기본 설정되어, 안정성을 보장하고 노이즈가 섞인 그래디언트 (noisy gradients)의 증폭을 완화합니다. 우리는 대규모 이커머스 데이터셋에서 AdaGRPO를 검증했습니다. 최적의 중간 체크포인트에서, AdaGRPO는 환각 (hallucination)을 0.22% 미만으로 억제하면서 HR@10을 11.01%에서 12.18%로 높였으며, 최종 체크포인트에서도 강건성(HR@10 11.63%, 환각 0.27%)을 유지하여 검색-유효성 경계 (retrieval--validity frontier) 전반에서 고정된 NLL--GRPO 혼합 방식보다 우수한 성능을 보였습니다. 프로덕션 A/B 테스트에서 AdaGRPO는 클릭률 (click-through rate)과 체류 시간 (dwell time)에서 통계적으로 유의미한 이득을 달성하여 실질적인 유용성을 확인했습니다.

AI 자동 생성 콘텐츠

원문 바로가기

생성형 추천을 위한 노이즈 강건한 GRPO를 위한 적응형 손실 균형 (Adaptive Loss Balancing for Noise-Robust

요약

핵심 포인트

댓글