Gradient-Gated DPO: 언어 모델의 선호도 최적화 안정화
요약
본 논문은 대규모 언어 모델의 선호도 최적화(DPO) 과정에서 발생하는 '압축 효과'와 확률 붕괴 문제를 해결하기 위한 새로운 방법인 Gradient-Gated Preference Optimization (Gate-DPO)를 제안합니다. Gate-DPO는 업데이트가 낮은 확률 응답을 목표로 할 때 해로운 그래디언트를 동적으로 감쇠시켜 모델의 훈련 안정성을 높입니다. 실험 결과, Gate-DPO는 기존 DPO 방법이 초래하는 선택 응답의 과도한 집중(압축) 현상을 효과적으로 줄이고 전반적인 확률 분포를 개선하며, 이는 언어 모델 정렬에 더 건강하고 효율적인 최적화 행동을 제공함을 입증했습니다.
핵심 포인트
- DPO는 선호도 학습의 핵심 패러다임이지만, 낮은 확률 응답에서 '압축 효과'와 확률 붕괴 문제를 야기할 수 있다.
- Gate-DPO는 언어 모델의 확률 기하학에 맞춰 거절 그래디언트를 조절하는 게이팅 메커니즘을 도입하여 훈련 안정성을 확보한다.
- 게이트를 통해 해로운 그래디언트가 감쇠되면서, 선택 응답의 과도한 집중(압축) 현상을 효과적으로 완화하고 전체 분포를 개선한다.
- Gate-DPO는 기존 SFT나 IPO 등 다른 정렬 기법과 보완적으로 사용될 수 있으며, 모델 규모와 관계없이 안정적인 최적화를 돕는다.
선호도 최적화 (Preference Optimization) 는 인간 피드백과 대규모 언어 모델을 정렬하는 데 핵심 패러다임이 되었습니다. 직접 선호도 최적화 (Direct Preference Optimization, DPO) 는 인간 피드백 기반 강화 학습을 간소화하여 쌍대 선호도를 직접 최적화함으로써 보상 모델링 및 정책 최적화의 필요성을 제거했습니다. 그러나 최근 연구는 DPO 가 부정적 그래디언트 (negative gradients) 를 거절된 응답에 적용할 때 확률 질량을 높은 신뢰도 예측으로 집중시키고 대안 응답을 억제하는 '압축 효과 (squeezing effect)'를 보인다는 것을 보여줍니다. 이 현상은 단순한 softmax 모델에서도 발생하며 훈련 중 체계적인 확률 붕괴 (probability collapse) 를 초래할 수 있습니다. 우리는 언어 모델의 확률 기하학에 따라 거절 그래디언트를 조절하여 훈련을 안정화하는 Gradient-Gated Preference Optimization (Gate-DPO) 을 소개합니다. 업데이트가 매우 낮은 확률 응답을 목표로 할 때 게이트는 해로운 그래디언트를 감쇠시키면서 표준 최적화 행동을 보존합니다. Gate-DPO 는 기본 선호도 목표를 수정하지 않고 이 최적화 병리 현상을 해결하며, 확장된 SFT (extended SFT), IPO, Cal-DPO 와 같은 기존 방법과 보완적입니다. 여러 아키텍처 및 선호도 데이터셋에 걸친 실험은 Gate-DPO 가 압축을 일관되게 줄이고 선택 응답의 확률 (chosen-response likelihood) 을 개선함을 보여줍니다. 질량 역학 분석 (Mass-dynamics analysis) 은 더 건강한 최적화 행동을 추가로 보여주며, 선호된 응답이 개선되고 전체 분포의 억제가 감소했습니다. 특히, 작은 게이트 모델은 큰 언게이트 모델보다 선택 응답 개선을 더 강하게 보일 수 있으며, 이는 규모뿐만 아니라 그래디언트 역학을 제어하는 것이 안정적이고 효율적인 정렬에 핵심임을 시사합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기