본문으로 건너뛰기

© 2026 Molayo

X요약2026. 05. 21. 15:24

우리가 해결해야 했던 두 가지 MoE-VLM 학습 과제

요약

Zyphra는 MoE-VLM 학습 과정에서 발생하는 배치 크기 붕괴와 라우팅 불안정성 문제를 해결한 ZAYA1-VL-8B 모델을 공개했습니다. 시각 토큰 전용 LoRA 어댑터를 도입하여 새로운 전문가 학습 없이도 모델에 시각적 역량을 효율적으로 부여했습니다. 해당 모델은 Apache 2.0 라이선스로 공개되었습니다.

핵심 포인트

  • MoE 라우팅 분산으로 인한 효과적인 배치 크기 붕괴 문제를 더 큰 배치 크기 사용으로 해결
  • 언어에서 언어+시각 모델로 전환 시 발생하는 라우팅 불안정성 문제 식별
  • 시각 토큰 전용 LoRA 어댑터를 통해 시각적 용량(visual capacity)을 효율적으로 추가
  • ZAYA1-VL-8B 모델 및 가중치 Apache 2.0 라이선스로 공개

우리가 해결해야 했던 두 가지 MoE-VLM (Mixture-of-Experts Vision-Language Model) 학습 과제:

→ 효과적인 배치 크기 (Effective batch size) 붕괴. 우리는 정답 토큰 (answer tokens)에 대해서만 학습하며, 이후 MoE 라우팅 (routing)이 배치들을 전문가 (experts)들 사이로 분산시킵니다. 해결책: 훨씬 더 큰 배치 크기 사용.
→ 언어 전용 (language-only)에서 언어+시각 (language+vision)으로의 전환이 라우팅을 불안정하게 만듭니다.

라우팅을 안정화하기 위해, 우리는 핵심적인 구조적 해결책을 도입합니다: 시각 토큰 (vision tokens)에서만 활성화되는 MLP 및 CCA 가중치에 대한 시각 전용 LoRA (Low-Rank Adaptation) 어댑터입니다.

이를 통해 새로운 전문가를 처음부터 학습시킬 필요 없이 모델에 전용 시각 용량 (visual capacity)을 부여할 수 있습니다.

우리는 Apache 2.0 라이선스 하에 ZAYA1-VL-8B를 공개합니다.

블로그:
https://zyphra.com/post/zaya1-vl-8b

기술 보고서 (Technical report):
http://zyphra.com/zaya1-vl-8b-technical-report

가중치 (Weights):
http://huggingface.co/Zyphra/ZAYA1-VL-8B

@ZyphraAI는 캘리포니아주 샌프란시스코에 본사를 둔 개방형 초지능 (superintelligence) 연구 및 제품 기업으로, 개인과 조직이 잠재력을 최대한 발휘할 수 있도록 돕는 인간 정렬 (human-aligned) AI를 구축하는 것을 사명으로 합니다.

함께하기 위해 지원하세요!

AI 자동 생성 콘텐츠

본 콘텐츠는 X @zyphraai (자동 발견)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0