TokenRatio: 비율 매칭(Ratio Matching)을 통한 원칙적인 토큰 수준 선호도 최적화
요약
본 연구는 기존의 DPO(Direct Preference Optimization)가 전체 시퀀스 선호도를 모델링하는 한계를 극복하고, 토큰 수준의 선호도 최적성(token-level preference optimization)을 회복하는 방법을 제시합니다. 이를 위해 'Token-level Bregman Preference Optimization (TBPO)'라는 새로운 프레임워크를 도입했습니다. TBPO는 표준적인 시퀀스 수준 쌍체 비교만을 사용하면서, 토큰별 다음 행동에 대한 선호도 모델을 가정하고 일반화된 목적 함수(Bregman-divergence 밀도 비율 매칭)를 도출합니다. 실험 결과, TBPO는 다양한 벤치마크에서 기존의 강력한 시퀀스 및 토큰 수준 베이스라인 대비 정렬 품질과 학습 안정성을 개선하고 출력 다양성을 증가시키는 성능을 보였습니다.
핵심 포인트
- DPO는 전체 시퀀스 선호도를 모델링하여 토큰별 최적성이 암시적으로만 남겨지는 한계가 있다.
- TBPO(Token-level Bregman Preference Optimization)는 표준적인 시퀀스 수준 쌍체 비교를 사용하여 토큰 수준의 선호도 최적성을 회복한다.
- TBPO는 Bregman-divergence 밀도 비율 매칭 목적 함수를 도출하여 DPO와 유사한 단순성을 유지하면서 일반화된 손실을 제공한다.
- 제안된 두 가지 구현체(TBPO-Q 및 TBPO-A)는 지시 이행, 유용성/무해성, 요약 등 다양한 벤치마크에서 성능 개선을 입증했다.
Direct Preference Optimization (DPO)는 쌍체 선호도(pairwise preferences)로부터 언어 모델을 정렬하기 위해 널리 사용되는 RL-free(강화학습이 필요 없는) 방식이지만, 생성은 토큰별 결정에 의해 이루어짐에도 불구하고 전체 시퀀스에 대한 선호도를 모델링합니다. 기존의 토큰 수준 확장 방식들은 일반적으로 시퀀스 수준의 Bradley-Terry 목적 함수를 타임스텝(timesteps)에 따라 분해하며, 이 과정에서 각 접두사(per-prefix, 상태별) 최적성을 암시적으로만 남겨둡니다. 본 연구에서는 표준적인 시퀀스 수준의 쌍체 비교만을 사용하여 어떻게 토큰 수준의 선호도 최적성을 회복할 수 있는지 연구합니다. 우리는 접두사에 조건화된 다음 토큰 행동(next-token actions)에 대해 토큰 수준의 Bradley-Terry 선호도 모델을 가정하는 Token-level Bregman Preference Optimization (TBPO)를 도입하며, 토큰 수준 모델에 의해 유도된 최적 정책을 보존하고 DPO와 유사한 단순성을 유지하면서도 로지스틱/DPO 손실을 일반화하는 Bregman-divergence 밀도 비율 매칭(density-ratio matching) 목적 함수를 도출합니다. 우리는 두 가지 구현체를 소개합니다: 경량화된 상태 베이스라인(state baseline)을 명시적으로 학습하는 TBPO-Q와, 어드밴티지 정규화(advantage normalization)를 통해 베이스라인을 제거하는 TBPO-A입니다. 지시 이행(instruction following), 유용성/무해성(helpfulness/harmlessness), 요약(summarization) 벤치마크 전반에 걸쳐, TBPO는 강력한 시퀀스 수준 및 토큰 수준 베이스라인들과 비교했을 때 정렬 품질과 학습 안정성을 개선하고 출력 다양성을 증가시킵니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기