PRISM 은 다중 모달 RL 의 분포적 드리프트를 수정합니다
요약
본 기술 기사는 다중 모달 강화 학습(Multi-modal RL)에서 발생하는 분포적 드리프트 문제를 해결하는 새로운 3단계 파이프라인을 제안합니다. 이 방법은 SFT와 RLVR 사이에 MoE 디스크리미네이터를 삽입하여 정렬 단계를 추가하며, 이를 통해 기존의 표준 SFT-to-RL 방식 대비 Qwen3-VL 모델의 정확도를 크게 향상시키는 결과를 보여줍니다.
핵심 포인트
- 다중 모달 RL에서 발생하는 분포적 드리프트(Distributional Drift) 문제를 해결하는 새로운 접근 방식을 제시합니다.
- SFT와 RLVR 사이에 MoE 디스크리미네이터를 삽입하여 정렬 단계를 추가하는 3단계 파이프라인을 구축했습니다.
- MoE 디스크리미네이터는 Perception 및 Reasoning 전문가 모듈을 포함하여 모델의 이해도를 높입니다.
- 제안된 방법은 Qwen3-VL 모델의 정확도를 기존 대비 상당한 수준(4B/8B에서 각각 +4.4/+6.0 포인트)으로 개선했습니다.
SFT 와 RLVR 사이에서 MoE 디스크리미네이터 (Perception 및 Reasoning 전문가 포함) 를 사용하여 정렬 단계를 삽입하는 3 단계 파이프라인입니다. 표준 SFT-to-RL 대비 Qwen3-VL 정확도를 +4.4(4B) 및 +6.0(8B) 포인트로 개선합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 X @huggingpapers (자동 발견)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기