Pair를 넘어서: 언어 모델은 비밀리에 선호도 그래프를 최적화합니다
요약
본 기사는 기존의 직접 선호도 최적화(DPO)가 쌍별 비교에 의존하는 한계를 지적하며, 실제 환경에서 발생하는 풍부한 롤아웃 순위 데이터를 활용하기 위한 새로운 방법론을 제안합니다. 이 방법은 '그래프 직접 선호도 최적화(Graph Direct Preference Optimization, GraphDPO)'를 도입하여, 데이터 내의 복잡한 지배 관계를 방향성 비순환 그래프로 모델링하고 이를 통해 언어 모델 정렬의 정확성과 견고성을 높입니다.
핵심 포인트
- 기존 DPO는 쌍별 비교에 의존하여 롤아웃 순위 데이터가 가진 풍부한 선호도 구조를 활용하지 못하는 한계가 있습니다.
- GraphDPO는 이러한 문제를 해결하기 위해, 방향성 비순환 그래프(DAG) 위에서 작동하며 지배 관계를 엣지로 인코딩합니다.
- GraphDPO는 단순 쌍별 비교를 넘어선 복잡한 선호도 구조를 모델링하여 언어 모델 정렬의 성능을 향상시킵니다.
- 제안된 방법론은 추론 및 프로그램 합성 작업 평가(riment)에서 우수한 성능을 입증했습니다.
직접 선호도 최적화(Direct Preference Optimization, DPO)는 쌍별 선호도 비교를 사용하여 언어 모델을 정렬하며, 인간 피드백 기반 강화학습(Reinforcement Learning, RL)에 간단하고 효과적인 대안을 제공합니다. 하지만 많은 실제 환경에서 훈련 데이터는 프롬프트당 여러 개의 롤아웃으로 구성되어 있으며, 이는 쌍별 DPO가 활용하지 못하는 풍부한 선호도 구조를 유발합니다. 이러한 데이터를 독립적인 쌍으로 축소하면 추이성(transitivity)을 손실하고, 중복되거나 상충되는 지도 학습 신호를 도입하며, 불안정한 최적화로 이어질 수 있습니다. 우리는 롤아웃 순위로 유도된 방향성 비순환 선호도 그래프(directed acyclic preference graphs) 위에서 작동하는 DPO의 원칙적인 일반화인 그래프 직접 선호도 최적화(Graph Direct Preference Optimization, GraphDPO)를 제안합니다. GraphDPO는 지배 관계(dominance relations)를 엣지(edges)로 인코딩하고 최적화합니다.
추론 및 프로그램 합성 작업에 대한 평가(riment)는 우수한 성능을 보여주며, 이는 그래프 구조의 선호 모델링이 쌍별(pairwise) 및 리스트별 정렬 목적 함수에 대한 확장 가능하고 견고한 대안임을 시사합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기