arXiv논문2026. 05. 06. 16:58

Uni-OPD: On-Policy Distillation 을 통합하는 쌍안 관점 최적화 레시피

요약

본 논문은 전문가 모델의 능력을 단일 학생 모델로 통합하는 On-policy Distillation (OPD)의 한계를 극복하기 위해 Uni-OPD라는 일반화된 프레임워크를 제안합니다. 연구진은 OPD가 효과적으로 작동하지 못하게 하는 두 가지 주요 병목 현상, 즉 정보에 풍부한 상태 탐색 부족과 신뢰할 수 없는 교사 감독 문제를 식별했습니다. 이를 해결하기 위해 학생 측면에서는 데이터 균형 전략을, 교사 측면에서는 올바른 경로와 잘못된 경로 간의 일관성 조정 메커니즘을 도입하여 강력하고 범용적인 최적화 레시피를 제시합니다.

핵심 포인트

Uni-OPD는 LLM 및 MLLM에 적용 가능한 일반화된 On-policy Distillation (OPD) 프레임워크입니다.
OPD의 핵심 병목 현상으로 '정보가 풍부한 상태 탐색 부족'과 '신뢰할 수 없는 교사 감독'을 식별하고 이를 해결책으로 제시했습니다.
학생 측면에서는 데이터 균형 전략을 통해 정보에 풍부한 상태 탐색을 촉진합니다.
교사 측면에서는 올바른 경로와 잘못된 경로의 간격 조정 메커니즘을 개발하여 순차적 일관성을 복원함으로써 신뢰할 수 있는 감독을 구현했습니다.

On-policy distillation (OPD) 은 최근 전문화된 전문가 모델의 능력을 단일 학생 모델로 통합하기 위한 효과적인 후학습 패러다임으로 등장했습니다. 실증적 성공에도 불구하고, OPD 가 신뢰할 수 있는 개선 효과를 내는 조건은 여전히 잘 이해되지 않았습니다. 본 작업에서는 효과적인 OPD 를 제한하는 두 가지 근본적인 병목 현상을 식별합니다: 정보에 풍부한 상태의 탐색 부족과 학생 롤아웃에 대한 불신뢰할 수 있는 교사 감독입니다. 이 통찰을 바탕으로, 우리는 LLM 과 MLLM 을 아우르는 쌍안 관점 최적화 전략을 중심으로 일반화된 OPD 프레임워크인 Uni-OPD 를 제안합니다. 구체적으로, 학생의 관점에서는 정보에 풍부한 학생 생성 상태의 탐색을 촉진하기 위해 두 가지 데이터 균형 전략을 채택했습니다. 교사의 관점에서는 집계된 토큰 수준의 가이드가 결과 보수와 순차적으로 일관하는지 여부가 신뢰할 수 있는 감독의 핵심임을 보여줍니다. 이를 위해 올바른 경로와 잘못된 경로의 간격 조정 메커니즘을 개발하여 순차적 일관성을 복원했습니다. 우리는 다양한 설정, 즉 LLM 과 MLLM 의 단일 교사 및 다중 교사 디스티illation, 강자 약자 디스티illation, 그리고 크로스 모달 디스티illation 을 포함한 5 개의 도메인과 16 개의 벤치마크에서 광범위한 실험을 수행했습니다. 우리의 결과는 Uni-OPD 의 효과성과 다양성을 검증하고 신뢰할 수 있는 OPD 에 대한 실용적 통찰력을 제공합니다.

AI 자동 생성 콘텐츠

원문 바로가기

Uni-OPD: On-Policy Distillation 을 통합하는 쌍안 관점 최적화 레시피

요약

핵심 포인트

댓글