본문으로 건너뛰기

© 2026 Molayo

X요약2026. 06. 28. 19:19

V-Zero: 정답 레이블이 필요 없는 시각적 추론 (answer-label-free visual reasoning)

요약

정답 레이블 없이 시각적 추론을 수행하는 V-Zero 모델을 소개합니다. 대조적 증거 게이팅과 온-정책 증류 기술을 결합하여 기존 SFT나 RL 방식보다 훨씬 빠른 학습 속도를 구현했습니다.

핵심 포인트

  • 정답 레이블이 필요 없는 시각적 추론 방식 제안
  • 대조적 증거 게이팅 기반의 온-정책 증류 활용
  • SFT 대비 5배, RL 대비 10배 빠른 학습 속도 달성
  • 4B 규모의 모델이 Hugging Face에 공개됨

V-Zero: 정답 레이블이 필요 없는 시각적 추론 (answer-label-free visual reasoning)

대조적 증거 게이팅 (contrastive evidence gating)을 결합한 온-정책 증류 (on-policy distillation)를 사용합니다.

SFT보다 5배 빠르고 RL보다 10배 빠르게 학습합니다.

4B 모델이 Hugging Face에 공개되었습니다. https://t.co/eqlBgFRojZ

AI 자동 생성 콘텐츠

본 콘텐츠는 X @huggingpapers (검증됨)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0