MOPD: LLM 사후 학습(Post-Training) 시 능력 통합을 위한 다중 교사 온폴리시 증류 (Multi-Teacher
요약
MOPD는 여러 도메인의 강화학습(RL) 능력을 하나의 LLM으로 통합하기 위한 새로운 사후 학습 패러다임입니다. 학생 모델의 자체 롤아웃을 통해 다중 교사의 능력을 증류함으로써 노출 편향을 제거하고 도메인 간 결합 문제를 해결합니다.
핵심 포인트
- 다중 교사 온폴리시 증류(MOPD)를 통한 능력 통합 방식 제안
- 기존 Off-Policy 및 Mix-RL 방식의 비효율성 및 성능 저하 해결
- Qwen3-30B-A3B 모델 실험에서 기존 베이스라인 모델들을 능가
- 도메인 교사들의 병렬적이고 독립적인 개발 가능성 입증
- 프런티어 모델 MiMo-V2-Flash에 적용되어 실질적 가치 증명
현대의 거대 언어 모델 (LLMs)은 특정 능력을 끌어올리기 위해 사후 학습 (post-training) 과정에서 강화학습 (reinforcement learning)에 의존하지만, 여러 능력을 하나의 모델로 통합하는 것은 여전히 어려운 과제로 남아 있습니다. Off-Policy Finetune 및 Mix-RL과 같은 기존 방법들은 비효율적이거나 성능을 저하시키는 문제가 있습니다. 본 연구에서는 여러 도메인 강화학습 (RL) 교사들의 능력을 결합하기 위한 사후 학습 패러다임인 다중 교사 온폴리시 증류 (Multi-teacher On-Policy Distillation, MOPD)를 제안합니다. 우리는 먼저 도메인별 특화된 강화학습 (RL)을 실행하여 일련의 도메인 교사들을 확보한 다음, 학생 모델의 자체 롤아웃 (rollouts)을 통해 이 교사들을 증류 (distill)합니다. 이는 노출 편향 (exposure bias)을 제거하고 조밀한 최적화 신호 (dense optimization signal)를 제공합니다. Qwen3-30B-A3B 모델에서 MOPD는 Mix-RL, Cascade RL, Off-Policy Finetune, 그리고 Param-Merge 베이스라인 모델들을 능가하며, 각 교사가 가진 능력의 거의 전부를 계승합니다. 또한 MOPD는 도메인 교사들의 병렬적이고 독립적인 개발을 가능하게 하여, 다중 도메인 사후 학습에서 전형적으로 나타나는 도메인 간 결합 (cross-domain coupling) 문제를 제거합니다. MOPD는 산업 규모의 프런티어 모델인 MiMo-V2-Flash의 사후 학습에 배포되었으며, 프런티어 규모의 LLM에서 능력 통합을 위한 실질적인 가치를 입증했습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기