BiasGRPO: 고분산 보상 환경에서 그룹 상대적 정책 최적화(GRPO)를 통한 편향 완화 안정화
요약
LLM의 사회적 편향 완화를 위해 GRPO를 활용한 새로운 프레임워크 BiasGRPO를 제안합니다. 기존 DPO의 탐색 부족과 PPO의 학습 불안정성을 해결하기 위해 그룹 상대적 보상 정규화 방식을 사용합니다.
핵심 포인트
- GRPO를 활용해 고분산 보상 환경에서 정렬 안정화
- 가치 함수 대신 그룹 상대적 베이스라인을 사용하여 불안정성 감소
- DPO 및 PPO 대비 우수한 편향 완화 성능 입증
- 계산 효율적인 맞춤형 편향 보상 모델 및 데이터셋 공개
대규모 언어 모델 (LLMs)에서 사회적 편향 (social bias)을 완화하는 것은 독특한 정렬 (alignment) 과제를 제시합니다. 검증 가능한 작업과 달리, 편향은 단일한 정답 (ground truth) 이 결여되어 있어 고분산 (high-variance) 의 주관적인 보상 환경 (reward landscape) 을 생성합니다. 기존의 선호도 기반 미세 조정 (preference-based fine-tuning) 방법들은 주요한 트레이드오프 (trade-offs) 를 가집니다. Direct Preference Optimization (DPO) 는 오프라인 학습 (offline training) 에 내재된 탐색 (exploration) 부족으로 인해 제한적이며, Proximal Policy Optimization (PPO) 는 잠재적으로 신뢰할 수 없는 비평가 추정치 (critic estimates) 로 인해 학습 불안정성을 초래할 수 있습니다. 본 논문에서 우리는 샘플링된 완성문 (completions) 그룹 전체에 걸쳐 보상을 정규화함으로써 정렬을 안정화하는 Group Relative Policy Optimization (GRPO) 를 사용하는 프레임워크인 BiasGRPO를 제안합니다. 가치 함수 (value function) 를 그룹 상대적 베이스라인 (group-relative baseline) 으로 대체함으로써, 우리의 접근 방식은 온라인 학습 (online training) 의 탐색 이점을 유지하면서 불안정성을 줄입니다. 우리는 BiasGRPO가 여러 벤치마크에서 DPO 및 PPO보다 뛰어난 성능을 보임을 확인하였으며, 이는 그 효과성을 나타냅니다. GRPO를 적응시키기 위해, 우리는 여러 도메인과 문맥을 아우르는 데이터셋을 합성적으로 확장했습니다. 또한 우리는 생성 과정을 효과적으로 가이드하면서도 계산 효율성이 매우 높고 지식 저하 (knowledge degradation) 를 방지하는 맞춤형 편향 보상 모델 (bias reward model) 을 제작하여 공개하며, 이는 다중 목적 RLHF 파이프라인에 원활하게 통합될 수 있는 가치 있는 리소스를 제공합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기