우리가 해결해야 했던 두 가지 MoE-VLM 학습 과제

우리가 해결해야 했던 두 가지 MoE-VLM (Mixture-of-Experts Vision-Language Model) 학습 과제:

→ 효과적인 배치 크기 (Effective batch size) 붕괴. 우리는 정답 토큰 (answer tokens)에 대해서만 학습하며, 이후 MoE 라우팅 (routing)이 배치들을 전문가 (experts)들 사이로 분산시킵니다. 해결책: 훨씬 더 큰 배치 크기 사용.
→ 언어 전용 (language-only)에서 언어+시각 (language+vision)으로의 전환이 라우팅을 불안정하게 만듭니다.

라우팅을 안정화하기 위해, 우리는 핵심적인 구조적 해결책을 도입합니다: 시각 토큰 (vision tokens)에서만 활성화되는 MLP 및 CCA 가중치에 대한 시각 전용 LoRA (Low-Rank Adaptation) 어댑터입니다.

이를 통해 새로운 전문가를 처음부터 학습시킬 필요 없이 모델에 전용 시각 용량 (visual capacity)을 부여할 수 있습니다.

우리는 Apache 2.0 라이선스 하에 ZAYA1-VL-8B를 공개합니다.

블로그:
https://zyphra.com/post/zaya1-vl-8b

기술 보고서 (Technical report):
http://zyphra.com/zaya1-vl-8b-technical-report

가중치 (Weights):
http://huggingface.co/Zyphra/ZAYA1-VL-8B

@ZyphraAI는 캘리포니아주 샌프란시스코에 본사를 둔 개방형 초지능 (superintelligence) 연구 및 제품 기업으로, 개인과 조직이 잠재력을 최대한 발휘할 수 있도록 돕는 인간 정렬 (human-aligned) AI를 구축하는 것을 사명으로 합니다.

함께하기 위해 지원하세요!