arXiv중요논문2026. 04. 24. 04:27

MGDA-Decoupled: DPO 기반 LLM 정렬을 위한 기하학적 다중 목표 최적화

요약

LLM의 인간 가치 정렬은 유용성, 진실성, 무해성 등 상충될 수 있는 여러 목표를 동시에 최적화하는 다중 목표(Multi-Objective) 문제입니다. 기존 방식들은 이러한 목표들을 단일 스칼라 값으로 통합하여 특정 목표가 과소평가되는 '절차적 불공정성'을 초래했습니다. 본 논문은 기하학 기반의 새로운 알고리즘인 MGDA-Decoupled를 제안합니다. 이는 개별 목표의 수렴 역학(convergence dynamics)을 명시적으로 고려하면서 공유된 하강 방향(shared descent direction)을 찾는 방식으로, 기존

핵심 포인트

LLM 정렬은 유용성, 진실성 등 상충하는 여러 목표를 다루는 다중 목표 최적화 문제이다.
제안된 MGDA-Decoupled는 Reinforcement Learning (RL)이나 별도의 보상 모델(Reward Model) 없이 DPO 패러다임 내에서 작동한다.
이 알고리즘은 각 개별 목표의 수렴 역학을 명시적으로 고려하여, 기존 방식 대비 더 공평한 트레이드오프를 달성한다.
UltraFeedback 데이터셋 실험 결과, MGDA-Decoupled는 전반적 및 개별 목표 측면에서 최고 수준의 승률(win rates)을 기록했다.

대규모 언어 모델(LLMs)을 인간이 원하는 가치에 정렬하는 과정은 유용성(helpfulness), 진실성(truthfulness), 무해성(harmlessness)과 같이 상충될 수 있는 여러 목표를 동시에 균형 있게 맞추는 다중 목표 최적화(Multi-Objective Optimisation) 과제입니다.

기존의 LLM 정렬 파이프라인들은 이러한 복잡한 목표들을 단일 스칼라 값으로 고정하여 통합하는 방식에 의존해 왔습니다. 이 방식은 특정 목표를 체계적으로 과소평가(under-weighting)하게 만들 수 있으며, 이는 '절차적 불공정성(procedural unfairness)'을 야기할 위험이 있습니다.

본 논문에서는 이러한 문제점을 해결하기 위해 MGDA-Decoupled라는 기하학 기반의 다중 목표 최적화 알고리즘을 제안합니다. 이 방법론은 각 개별 목표가 가진 고유한 수렴 역학(convergence dynamics)을 명시적으로 고려하면서, 모든 목표를 아우르는 공유된 하강 방향(shared descent direction)을 찾는 것을 목표로 합니다.

MGDA-Decoupled의 가장 큰 장점 중 하나는 구현 패러다임입니다. 기존 연구들은 종종 강화학습 (Reinforcement Learning, RL) 기반 방법론(예: GAPO)이나 별도의 보상 모델(Reward Model) 구축을 필요로 했습니다. 반면, MGDA-Decoupled는 오직 경량화된 직접 선호 최적화 (Direct Preference Optimisation, DPO) 패러다임 내에서 완전히 작동할 수 있습니다.

실험 결과에 따르면, 기하학적 인지(geometry-aware) 방법을 사용한 접근 방식들, 특히 MGDA-Decoupled가 UltraFeedback 데이터셋에서 가장 높은 승률을 달성했습니다. 이는 전체적인 성능은 물론이고, 개별 목표 측면에서도 우수한 결과를 보여주었습니다.

요약하자면, MGDA-Decoupled는 LLM 정렬의 공정성과 효율성을 동시에 높이는 혁신적인 접근법으로, 다중 목표 최적화 문제를 DPO 프레임워크 내에서 기하학적으로 해결합니다.

AI 자동 생성 콘텐츠

원문 바로가기

MGDA-Decoupled: DPO 기반 LLM 정렬을 위한 기하학적 다중 목표 최적화

요약

핵심 포인트

댓글