AdaDPO: 균형 잡힌 그래디언트 업데이트를 통한 자기 적응형 직접 선호 최적화
요약
DPO의 비대칭적 그래디언트 문제를 해결하기 위해 자기 적응형 계수를 도입한 AdaDPO를 제안합니다. 이 방식은 선호 응답과 비선호 응답 사이의 그래디언트 크기를 균형 있게 맞추어 모델의 학습 효율을 높입니다. 실험 결과 Llama-3-8B-Instruct 모델에서 기존 DPO보다 우수한 성능과 길이 편향 완화 효과를 입증했습니다.
핵심 포인트
- DPO의 비대칭적 그래디언트 동작으로 인한 학습 불균형 문제 해결
- 스톱-그래디언트 기반 계수를 통한 자기 적응형 최적화 구현
- AlpacaEval 2에서 DPO 대비 높은 승률 및 길이 제어 능력 달성
- 기존 선호도 기반 정렬 파이프라인에 코드 몇 줄로 즉시 적용 가능
DPO는 별도의 보상 모델 (Reward Model)이나 강화학습 (RL) 루프의 필요성을 제거함으로써, LLM (Large Language Models)을 인간의 선호도에 맞추기 위해 RLHF (Reinforcement Learning from Human Feedback)의 대안으로 널리 채택되어 왔습니다. 최근의 이론적 분석은 DPO에서 비대칭적인 그래디언트 (Gradient) 동작이 나타남을 밝혀냈습니다. 즉, 손실 함수 (Loss)가 선호되는 응답을 촉진하는 것보다 선호되지 않는 응답을 억제하는 속도가 훨씬 빨라, 모델이 좋은 답변을 생성하기보다는 나쁜 답변을 피하는 법을 배우게 만듭니다. 우리는 정책 모델 (Policy Model)의 생성 확률에서 직접 유도된 선호 쌍별 (per-preference-pair) 스톱-그래디언트 (stop-gradient) 기반 계수를 도입하는 DPO 알고리즘의 자기 적응형 (Self-Adaptive) 변형인 AdaDPO를 제안합니다. 이때 참조 모델 (Reference Model)의 확률은 선택적 구성 요소로 사용됩니다. AdaDPO는 선호되는 확률과 선호되지 않는 확률 사이의 그래디언트 크기(Magnitude)의 균등을 강제하도록 설계되었습니다. 실제 구현에서는 DPO의 원래 하이퍼파라미터 (Hyperparameter) 구조를 유지하면서, 토큰별 그래디언트를 균형 있게 맞추고 안정성을 위해 수치적 클리핑 경계 (Numerical Clipping Bound)를 적용합니다. SimPO와 유사한 설정 하에 UltraFeedback 데이터로 학습된 Llama-3-8B-Instruct를 대상으로 실험한 결과, AdaDPO는 AlpacaEval 2에서 DPO를 지속적으로 능가했습니다. AdaDPO는 하이퍼파라미터 조합의 81%에서 더 높은 길이 제어 승률 (Length-controlled Win Rate, LC)을 달성했으며, 전역 최고 LC (48.3%) 및 원시 승률 (Raw Win Rate, 46.1%)을 기록했고, 조합의 88%에서 LC-over-WR 마진을 확대하여 길이 편향 (Length Bias)이 효과적으로 완화되었음을 보여주었습니다. KL 발산 (KL Divergence), 보상 마진 (Reward Margin), 보상 정확도 (Reward Accuracy)에 대한 추가 분석은 AdaDPO가 그래디언트 불균형을 교정하고 더 효율적인 최적화 (Optimization)를 산출함을 확인시켜 줍니다. AdaDPO는 순수하게 손실 레벨에서 작동하기 때문에, 데이터 수집이나 모델 아키텍처를 변경하지 않고도 기존의 선호도 기반 정렬 파이프라인에 바로 적용할 수 있습니다. 이 방법은 단 몇 줄의 코드만 필요하며, 동일한 자기 적응 원리는 SimPO, R-DPO, IPO, CPO, ORPO를 포함한 광범위한 쌍별 대조 선호도 손실 (Pairwise Contrastive Preference Losses) 제품군에 일반화될 수 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기