arXiv논문2026. 05. 05. 16:54

Gradient-Gated DPO: 언어 모델의 선호도 최적화 안정화

요약

본 논문은 대규모 언어 모델의 선호도 최적화(DPO) 과정에서 발생하는 '압축 효과'와 확률 붕괴 문제를 해결하기 위한 새로운 방법인 Gradient-Gated Preference Optimization (Gate-DPO)를 제안합니다. Gate-DPO는 업데이트가 낮은 확률 응답을 목표로 할 때 해로운 그래디언트를 동적으로 감쇠시켜 모델의 훈련 안정성을 높입니다. 실험 결과, Gate-DPO는 기존 DPO 방법이 초래하는 선택 응답의 과도한 집중(압축) 현상을 효과적으로 줄이고 전반적인 확률 분포를 개선하며, 이는 언어 모델 정렬에 더 건강하고 효율적인 최적화 행동을 제공함을 입증했습니다.

핵심 포인트

DPO는 선호도 학습의 핵심 패러다임이지만, 낮은 확률 응답에서 '압축 효과'와 확률 붕괴 문제를 야기할 수 있다.
Gate-DPO는 언어 모델의 확률 기하학에 맞춰 거절 그래디언트를 조절하는 게이팅 메커니즘을 도입하여 훈련 안정성을 확보한다.
게이트를 통해 해로운 그래디언트가 감쇠되면서, 선택 응답의 과도한 집중(압축) 현상을 효과적으로 완화하고 전체 분포를 개선한다.
Gate-DPO는 기존 SFT나 IPO 등 다른 정렬 기법과 보완적으로 사용될 수 있으며, 모델 규모와 관계없이 안정적인 최적화를 돕는다.

선호도 최적화 (Preference Optimization) 는 인간 피드백과 대규모 언어 모델을 정렬하는 데 핵심 패러다임이 되었습니다. 직접 선호도 최적화 (Direct Preference Optimization, DPO) 는 인간 피드백 기반 강화 학습을 간소화하여 쌍대 선호도를 직접 최적화함으로써 보상 모델링 및 정책 최적화의 필요성을 제거했습니다. 그러나 최근 연구는 DPO 가 부정적 그래디언트 (negative gradients) 를 거절된 응답에 적용할 때 확률 질량을 높은 신뢰도 예측으로 집중시키고 대안 응답을 억제하는 '압축 효과 (squeezing effect)'를 보인다는 것을 보여줍니다. 이 현상은 단순한 softmax 모델에서도 발생하며 훈련 중 체계적인 확률 붕괴 (probability collapse) 를 초래할 수 있습니다. 우리는 언어 모델의 확률 기하학에 따라 거절 그래디언트를 조절하여 훈련을 안정화하는 Gradient-Gated Preference Optimization (Gate-DPO) 을 소개합니다. 업데이트가 매우 낮은 확률 응답을 목표로 할 때 게이트는 해로운 그래디언트를 감쇠시키면서 표준 최적화 행동을 보존합니다. Gate-DPO 는 기본 선호도 목표를 수정하지 않고 이 최적화 병리 현상을 해결하며, 확장된 SFT (extended SFT), IPO, Cal-DPO 와 같은 기존 방법과 보완적입니다. 여러 아키텍처 및 선호도 데이터셋에 걸친 실험은 Gate-DPO 가 압축을 일관되게 줄이고 선택 응답의 확률 (chosen-response likelihood) 을 개선함을 보여줍니다. 질량 역학 분석 (Mass-dynamics analysis) 은 더 건강한 최적화 행동을 추가로 보여주며, 선호된 응답이 개선되고 전체 분포의 억제가 감소했습니다. 특히, 작은 게이트 모델은 큰 언게이트 모델보다 선택 응답 개선을 더 강하게 보일 수 있으며, 이는 규모뿐만 아니라 그래디언트 역학을 제어하는 것이 안정적이고 효율적인 정렬에 핵심임을 시사합니다.

AI 자동 생성 콘텐츠

원문 바로가기

Gradient-Gated DPO: 언어 모델의 선호도 최적화 안정화

요약

핵심 포인트

댓글