
V-Zero: 정답 레이블이 필요 없는 시각적 추론 (answer-label-free visual reasoning)
요약
정답 레이블 없이 시각적 추론을 수행하는 V-Zero 모델을 소개합니다. 대조적 증거 게이팅과 온-정책 증류 기술을 결합하여 기존 SFT나 RL 방식보다 훨씬 빠른 학습 속도를 구현했습니다.
핵심 포인트
- 정답 레이블이 필요 없는 시각적 추론 방식 제안
- 대조적 증거 게이팅 기반의 온-정책 증류 활용
- SFT 대비 5배, RL 대비 10배 빠른 학습 속도 달성
- 4B 규모의 모델이 Hugging Face에 공개됨
V-Zero: 정답 레이블이 필요 없는 시각적 추론 (answer-label-free visual reasoning)
대조적 증거 게이팅 (contrastive evidence gating)을 결합한 온-정책 증류 (on-policy distillation)를 사용합니다.
SFT보다 5배 빠르고 RL보다 10배 빠르게 학습합니다.
4B 모델이 Hugging Face에 공개되었습니다. https://t.co/eqlBgFRojZ
AI 자동 생성 콘텐츠
본 콘텐츠는 X @huggingpapers (검증됨)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기