arXiv논문2026. 05. 12. 19:25

MASS-DPO: 다중 부정적 능동 샘플 선택을 통한 직접 정책 최적화

요약

MASS-DPO는 Plackett--Luce (PL) 모델 하의 다중 부정적 선호도 최적화를 위한 새로운 방법론입니다. 이 방법은 대규모 부정 풀에서 중복적인 기울기 계산 문제를 해결하기 위해, PL 특이적 피셔 정보량 목적 함수를 사용하여 간결하고 정보가 풍부한 부정 부분 집합을 능동으로 선택합니다. 그 결과, 정책 업데이트에 상호 보완적인 정보를 제공하는 최적의 샘플들을 선별하여, 기존 방법들보다 효율적이면서도 강력한 모델 정렬(alignment) 성능을 달성합니다.

핵심 포인트

MASS-DPO는 PL 모델 기반 다중 부정적 선호도 최적화 기법입니다.
대규모 부정 풀의 중복 기울기 문제를 해결하기 위해 능동 샘플 선택 전략을 도입했습니다.
PL 특이적 피셔 정보량 목적 함수를 사용하여, 정책 업데이트에 상호 보완적인 정보를 제공하는 부분 집합을 추출합니다.
추천 및 QA 벤치마크에서 기존 방법 대비 일관되게 우수하거나 동등한 성능을 보여 강력한 정렬 능력을 입증했습니다.

Plackett--Luce (PL) 모델 하의 다중 부정적 선호도 최적화는 하나의 선호 응답과 여러 거부된 응답 간의 비교 신호를 활용하여 Direct Preference Optimization (DPO)를 확장합니다. 하지만, 대규모 부정 풀(negative pool)에 걸쳐 최적화하는 것은 비용이 많이 들고, 많은 후보들이 정책 업데이트에 유사한 영향을 미치기 때문에 중복적인 기울기를 기여합니다. 우리는 MASS-DPO라는 다중 부정적 능동 샘플 선택 방법을 도입했습니다. 이 방법은 각 프롬프트 내에서 간결하고 정보가 풍부한 부정 부분 집합을 선택하기 위해 PL 특이적 피셔 정보량(Fisher-information) 목적 함수를 도출합니다. 그 결과로 얻어지는 로그 행렬식(log-determinant) 목적 함수는 정책 업데이트에 상호 보완적인 정보를 기여하는 부정 샘플들을 선택하며, 중복성을 줄이는 동시에 전체 풀의 정보를 유지하는 간결한 부분 집합을 산출합니다. 실제로는, 이 방법이 기울기가 서로 다른 업데이트 방향을 커버하는 부정 샘플들을 선호하여, 거의 동일한 후보들로부터 오는 중복 신호를 줄이는 동시에 가장 유용한 훈련 정보를 보존합니다. 추천 및 객관식 QA를 아우르는 네 가지 벤치마크와 세 가지 모델 패밀리 전반에 걸쳐, MASS-DPO는 정확도 면에서 기존 방법들을 일관되게 능가하거나 동등한 성능을 보였으며, Recall/NDCG 및 마진 기반 최적화 역학을 개선하고, 훨씬 적은 부정 샘플로 더 강력한 정렬(alignment)을 제공합니다.

AI 자동 생성 콘텐츠

원문 바로가기

MASS-DPO: 다중 부정적 능동 샘플 선택을 통한 직접 정책 최적화

요약

핵심 포인트

댓글