arXiv논문2026. 05. 21. 11:11

DPO와 RLHF의 조건부 동등성: 암묵적 가정, 실패 모드 및 증명 가능한 정렬

요약

본 논문은 DPO와 RLHF 사이의 이론적 동등성이 특정 암묵적 가정 하에서만 성립하는 조건부적 관계임을 증명합니다. RLHF-최적 정책이 인간의 선호도를 반드시 따를 것이라는 가정이 깨질 경우, DPO는 인간의 선호가 아닌 참조 정책 대비 상대적 이점만을 최적화하는 병리적 수렴 문제를 겪을 수 있습니다. 이를 해결하기 위해 저자들은 제약 조건을 추가하여 증명 가능한 정렬을 제공하는 CPO(Constrained Preference Optimization)를 제안합니다.

핵심 포인트

DPO와 RLHF의 이론적 동등성은 RLHF-최적 정책이 인간의 선호도를 따른다는 가정에 의존함
해당 가정이 위반될 경우 DPO는 인간의 선호도와 무관하게 손실 함수를 감소시키는 병리적 수렴이 발생할 수 있음
DPO는 잠재적으로 음수 타겟을 가진 마진 랭킹을 구현하는 기하학적 특성을 가짐
새로운 방법론인 CPO를 통해 단순성을 유지하면서도 증명 가능한 정렬과 최첨단 성능을 달성함

Direct Preference Optimization (DPO)는 Reinforcement Learning from Human Feedback (RLHF)의 대중적인 대안으로 부상하였으며, 더 간단한 구현과 함께 이론적 동등성 (theoretical equivalence)을 제공합니다. 본 논문에서는 이러한 동등성이 보편적인 것이 아니라 조건부적임을 증명하며, 이는 실제 상황에서 빈번하게 위반되는 암묵적 가정(implicit assumption)에 달려 있음을 밝힙니다. 즉, RLHF-최적 정책 (RLHF-optimal policy)이 반드시 인간이 선호하는 응답을 선호해야 한다는 가정입니다. 이 가정이 실패할 경우, DPO는 인간의 선호도에 대한 절대적인 정렬 (absolute alignment) 대신 참조 정책 (reference policy) 대비 상대적 이점 (relative advantage)을 최적화하게 되며, 이는 정책이 선호되지 않는 응답을 선호하면서도 DPO 손실 (DPO loss)을 감소시키는 병리적 수렴 (pathological convergence)으로 이어집니다. 우리는 이 가정이 위반되는 상황을 규정하고, 바람직하지 않은 솔루션 공간 (solution space)의 존재를 보여주며, 이러한 경우 DPO와 RLHF가 근본적으로 다른 목적 함수 (objectives)를 최적화함을 증명합니다. 이를 해결하기 위해, 우리는 증명 가능한 정렬을 위해 RLHF에 제약 조건을 추가한 Constrained Preference Optimization (CPO)를 소개합니다. 나아가 소프트 마진 랭킹 (soft margin ranking)을 통한 기하학적 해석을 제공하여, DPO가 잠재적으로 음수인 타겟을 가진 마진 랭킹 (margin ranking)을 구현함을 밝힙니다. 우리의 이론적 분석은 DPO의 보장 (guarantees)이 유지되는 조건을 확립하고, 단순성을 유지하면서도 증명 가능한 정렬을 제공하는 솔루션을 제시합니다. 표준 벤치마크에 대한 종합적인 실험을 통해 CPO가 최첨단 성능 (state-of-the-art performance)을 달성함을 입증합니다. 코드는 다음에서 확인할 수 있습니다: https://github.com/visitworld123/CPO.

AI 자동 생성 콘텐츠

원문 바로가기

DPO와 RLHF의 조건부 동등성: 암묵적 가정, 실패 모드 및 증명 가능한 정렬

요약

핵심 포인트

댓글