본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 01. 13:13

PRISM: 블랙박스 온폴리시 디스틸레이션을 통한 다중모달 강화학습 사전 정렬

요약

본 논문은 대규모 다중모달 모델(LMMs)의 사후 학습 과정에서 발생하는 분포적 드리프트 문제를 해결하기 위해 PRISM이라는 세 단계 파이프라인을 제안합니다. PRISM은 SFT와 RLVR 사이에 온폴리시 디스틸레이션(OPD) 기반의 명시적인 분포 정렬 단계를 삽입하여, 모델이 감독 분포를 유지하면서도 성능 저하 없이 강화학습(RL)을 수행하도록 돕습니다. 이 방법론은 다양한 다중모달 벤치마크에서 기존 RL 알고리즘 대비 일관되게 높은 성능 향상을 입증했습니다.

핵심 포인트

  • PRISM은 LMM의 SFT와 RLVR 사이에 분포 정렬 단계를 추가하여 모델 드리프트를 완화합니다.
  • 온폴리시 디스틸레이션(OPD) 원리를 활용한 블랙박스 적대적 게임을 통해 정책을 감독 분포로 유도합니다.
  • 이 방법론은 지각 및 추론 전문가를 갖춘 MoE 판별기를 사용하여 교정 신호를 분리합니다.
  • Qwen3-VL 모델에서 다양한 다중모달 벤치마크에 걸쳐 RLVR 성능을 평균적으로 크게 향상시켰습니다.

대규모 다중모달 모델 (LMMs) 의 표준 사후 학습 레시피는 큐레이션된 데모스트레이션에 대한 감독 미세 조정 (SFT) 을 적용한 후 검증 가능한 보상 (RLVR) 과 결합된 강화학습을 수행합니다. 그러나 SFT 는 모델의 원래 능력을 보존하지도 않고 감독 분포와 충실하게 일치하지도 않는 분포적 드리프트를 유발합니다. 이 문제는 다중모달 추론에서 특히 심화되며, 지각 오류와 추론 실패는 서로 다른 드리프트 패턴을 따르며 후속 RL 단계에서 누적됩니다. 우리는 SFT 와 RLVR 사이에 명시적인 분포 정렬 단계를 삽입하여 이러한 드리프트를 완화하는 세 단계 파이프라인인 PRISM 을 소개합니다. 온폴리시 디스틸레이션 (OPD) 의 원칙에 기반한 PRISM 은 정렬을 정책과 전용 지각 및 추론 전문가를 갖춘 혼합 전문가 (MoE) 판별기 사이의 블랙박스 응답 레벨 적대적 게임으로 설정하여, 교정 신호를 분리하고 교사 로짓에 대한 접근 없이도 정책을 감독 분포로 이끌도록 합니다. 126 만 개의 공개 데모스트레이션은 광범위한 SFT 초기화에 충분하지만, 분포 정렬은 더 높은 충실도의 감독을 요구합니다. 따라서 우리는 Gemini 3 Flash 에서 가장 어려운 미해결 문제에 대해 밀집된 시각적 지명과 단계별 추론이 포함된 추가 11 만 3 천 개의 데모스트레이션을 큐레이션했습니다. Qwen3-VL 에서 수행한 실험 결과, PRISM 은 GRPO, DAPO, GSPO 등 여러 RL 알고리즘과 다양한 다중모달 벤치마크에서 하류 RLVR 성능을 일관되게 향상시켰으며, 4B 와 8B 모델에 대해 각각 SFT-to-RLVR 기준선 대비 평균 정확도를 +4.4 점 및 +6.0 점 개선했습니다. 우리의 코드, 데이터, 및 모델 체크포인트는 https://github.com/XIAO4579/PRISM 에서 공개되어 있습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
2

댓글

0