X요약2026. 05. 06. 15:32

PRISM 은 다중 모달 RL 의 분포적 드리프트를 수정합니다

요약

본 기술 기사는 다중 모달 강화 학습(Multi-modal RL)에서 발생하는 분포적 드리프트 문제를 해결하는 새로운 3단계 파이프라인을 제안합니다. 이 방법은 SFT와 RLVR 사이에 MoE 디스크리미네이터를 삽입하여 정렬 단계를 추가하며, 이를 통해 기존의 표준 SFT-to-RL 방식 대비 Qwen3-VL 모델의 정확도를 크게 향상시키는 결과를 보여줍니다.

핵심 포인트

다중 모달 RL에서 발생하는 분포적 드리프트(Distributional Drift) 문제를 해결하는 새로운 접근 방식을 제시합니다.
SFT와 RLVR 사이에 MoE 디스크리미네이터를 삽입하여 정렬 단계를 추가하는 3단계 파이프라인을 구축했습니다.
MoE 디스크리미네이터는 Perception 및 Reasoning 전문가 모듈을 포함하여 모델의 이해도를 높입니다.
제안된 방법은 Qwen3-VL 모델의 정확도를 기존 대비 상당한 수준(4B/8B에서 각각 +4.4/+6.0 포인트)으로 개선했습니다.

SFT 와 RLVR 사이에서 MoE 디스크리미네이터 (Perception 및 Reasoning 전문가 포함) 를 사용하여 정렬 단계를 삽입하는 3 단계 파이프라인입니다. 표준 SFT-to-RL 대비 Qwen3-VL 정확도를 +4.4(4B) 및 +6.0(8B) 포인트로 개선합니다.

AI 자동 생성 콘텐츠

원문 바로가기

Insights

PRISM 은 다중 모달 RL 의 분포적 드리프트를 수정합니다

요약

핵심 포인트

댓글

보험료 부담이 영국 전기차 도입 속도를 늦추는 위협

Aspen 소유의 40억 달러 규모 RIA Summitry 창립자 사임 및 두 공동 CEO 승진

PepsiCo CEO가 휘발유 가격과 소비 지출에 대해 경고하다

대형 은행 실적, 미국 인플레이션 데이터 및 Warsh 의장 증언에 주목하며 S&P 선물 시장 주춤