DGPO: 방향 일관성을 갖춘 그룹별 최적화를 통한 쌍별 선호도를 넘어서
요약
본 논문은 기존 선호도 최적화 방법들이 가진 방향성 일관성 문제를 해결하기 위해 Directional-Groupwise Preference Optimization (DGPO)라는 새로운 프레임워크를 제안합니다. DGPO는 그룹 수준에서 감독 신호를 집계하고, 다중 후보 비교를 통해 방향 인식 정렬을 명시적으로 모델링하여 추론 경로 전반의 일관성을 강화합니다. 실험 결과에 따르면, DGPO는 기존 방법 대비 여러 벤치마크에서 평균 3.2% 이상의 성능 향상을 보여 LLM의 정렬 품질을 크게 개선할 수 있음을 입증했습니다.
핵심 포인트
- DGPO(Directional-Groupwise Preference Optimization)를 제안하여, 기존 선호도 최적화가 놓치던 방향성 일관성을 모델링합니다.
- 이 방법은 그룹 수준에서 감독 신호를 집계하고, 다중 후보 비교를 통해 '방향 인식 정렬'을 명시적으로 학습합니다.
- DGPO는 순방향 및 역방향 질의응답 인스턴스를 구조화된 세트로 구성하여 일관성 있는 추론 경로와 대안들을 분리합니다.
- 실험 결과, DGPO는 여러 벤치마크에서 평균적으로 최대 3.6%에 달하는 성능 향상을 보여 우수한 정렬 효과를 입증했습니다.
거대 언어 모델(LLMs)이 놀라운 발전을 이루었음에도 불구하고, 현재의 선호도 최적화 방법들은 추론 다양성을 유지하면서 방향성 일관성을 맞추는 데 여전히 어려움을 겪고 있습니다. 이러한 한계를 해결하기 위해, 우리는 Directional-Groupwise Preference Optimization (DGPO)을 제안합니다. DGPO는 그룹 수준에서 감독 신호를 집계하고 다중 후보 비교를 통해 방향 인식 정렬(direction-aware alignment)을 명시적으로 모델링하는 경량 프레임워크입니다. DGPO는 순방향 및 역방향 질의응답 인스턴스를 구조화된 세트로 구성하고, 일관성 있는 추론 경로와 일관성 없는 대안들을 분리하는 마진 기반 우도 목적 함수를 최적화합니다. 이러한 그룹별 공식화는 쌍별 목적 함수보다 더 풍부한 상대 정보를 포착하며 다양한 추론 경로 전반에 걸쳐 일관성을 강화합니다. 실험 결과에 따르면, 우리가 구축한 역방향 데이터만으로도 5가지 벤치마크에서 평균 3.2%의 개선을 보였으며, DGPO는 여러 데이터셋과 모델 계열에 걸쳐 지속적인 성능 향상을 제공하여 최대 3.6%의 평균 정확도 향상을 달성했습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기