arXiv논문2026. 05. 01. 13:13

PRISM: 블랙박스 온폴리시 디스틸레이션을 통한 다중모달 강화학습 사전 정렬

요약

본 논문은 대규모 다중모달 모델(LMMs)의 사후 학습 과정에서 발생하는 분포적 드리프트 문제를 해결하기 위해 PRISM이라는 세 단계 파이프라인을 제안합니다. PRISM은 SFT와 RLVR 사이에 온폴리시 디스틸레이션(OPD) 기반의 명시적인 분포 정렬 단계를 삽입하여, 모델이 감독 분포를 유지하면서도 성능 저하 없이 강화학습(RL)을 수행하도록 돕습니다. 이 방법론은 다양한 다중모달 벤치마크에서 기존 RL 알고리즘 대비 일관되게 높은 성능 향상을 입증했습니다.

핵심 포인트

PRISM은 LMM의 SFT와 RLVR 사이에 분포 정렬 단계를 추가하여 모델 드리프트를 완화합니다.
온폴리시 디스틸레이션(OPD) 원리를 활용한 블랙박스 적대적 게임을 통해 정책을 감독 분포로 유도합니다.
이 방법론은 지각 및 추론 전문가를 갖춘 MoE 판별기를 사용하여 교정 신호를 분리합니다.
Qwen3-VL 모델에서 다양한 다중모달 벤치마크에 걸쳐 RLVR 성능을 평균적으로 크게 향상시켰습니다.

대규모 다중모달 모델 (LMMs) 의 표준 사후 학습 레시피는 큐레이션된 데모스트레이션에 대한 감독 미세 조정 (SFT) 을 적용한 후 검증 가능한 보상 (RLVR) 과 결합된 강화학습을 수행합니다. 그러나 SFT 는 모델의 원래 능력을 보존하지도 않고 감독 분포와 충실하게 일치하지도 않는 분포적 드리프트를 유발합니다. 이 문제는 다중모달 추론에서 특히 심화되며, 지각 오류와 추론 실패는 서로 다른 드리프트 패턴을 따르며 후속 RL 단계에서 누적됩니다. 우리는 SFT 와 RLVR 사이에 명시적인 분포 정렬 단계를 삽입하여 이러한 드리프트를 완화하는 세 단계 파이프라인인 PRISM 을 소개합니다. 온폴리시 디스틸레이션 (OPD) 의 원칙에 기반한 PRISM 은 정렬을 정책과 전용 지각 및 추론 전문가를 갖춘 혼합 전문가 (MoE) 판별기 사이의 블랙박스 응답 레벨 적대적 게임으로 설정하여, 교정 신호를 분리하고 교사 로짓에 대한 접근 없이도 정책을 감독 분포로 이끌도록 합니다. 126 만 개의 공개 데모스트레이션은 광범위한 SFT 초기화에 충분하지만, 분포 정렬은 더 높은 충실도의 감독을 요구합니다. 따라서 우리는 Gemini 3 Flash 에서 가장 어려운 미해결 문제에 대해 밀집된 시각적 지명과 단계별 추론이 포함된 추가 11 만 3 천 개의 데모스트레이션을 큐레이션했습니다. Qwen3-VL 에서 수행한 실험 결과, PRISM 은 GRPO, DAPO, GSPO 등 여러 RL 알고리즘과 다양한 다중모달 벤치마크에서 하류 RLVR 성능을 일관되게 향상시켰으며, 4B 와 8B 모델에 대해 각각 SFT-to-RLVR 기준선 대비 평균 정확도를 +4.4 점 및 +6.0 점 개선했습니다. 우리의 코드, 데이터, 및 모델 체크포인트는 https://github.com/XIAO4579/PRISM 에서 공개되어 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

PRISM: 블랙박스 온폴리시 디스틸레이션을 통한 다중모달 강화학습 사전 정렬

요약

핵심 포인트

댓글