X요약2026. 05. 15. 16:32

ZAYA1-VL-8B는 많은 경쟁사들이 사용하는 수조 개의 토큰과 달리 약 1,400억 개의 멀티모달 (multimodal) 토큰으로

요약

Zyphra가 AMD 기반의 8B MoE(Mixture-of-Experts) 구조를 가진 시각-언어 모델 ZAYA1-VL-8B를 출시했습니다. 이 모델은 수조 개의 토큰 대신 1,400억 개의 고품질 멀티모달 토큰을 사용하여 높은 지능 밀도와 추론 효율성을 달성했습니다.

핵심 포인트

700M 활성 파라미터를 가진 8B MoE 아키텍처로 높은 추론 효율성 제공
이미지 토큰에 양방향 어텐션(Bidirectional Attention)을 적용하여 시각적 이해도 향상
시각 전용 LoRA(Low-Rank Adaptation)를 도입하여 라우팅 안정화 및 전용 시각 용량 확보
OCR, 문서 추론, GUI 상호작용 및 컴퓨터 사용 에이전트에 최적화된 성능
Apache 2.0 라이선스로 공개되어 오픈 소스 활용 가능

오늘 우리는 우리의 첫 번째 시각-언어 모델 (vision-language model)인 ZAYA1-VL-8B를 출시합니다.

ZAYA1-VL-8B는 @AMD에서 학습된 우리의 ZAYA1-8B 베이스를 기반으로 구축된 700M 활성 / 8B 전체 MoE (Mixture-of-Experts) 모델입니다. 우리는 모델 크기 대비 강력한 성능을 달성하여 선도적인 지능 밀도 (intelligence density)와 추론 효율성 (inference efficiency)을 결과로 보여줍니다.

우리는 두 가지 근본적인 아키텍처 혁신을 통해 이러한 지능 효율성을 달성했습니다:

이미지 토큰은 언어와 달리 인과적 (causal)이지 않기 때문에, 이미지 토큰에 대해서만 양방향 어텐션 (Bidirectional Attention)을 적용합니다.
시각 전용 LoRA (Low-Rank Adaptation) 파라미터 - 이를 통해 모델에 전용 시각 전용 용량을 부여합니다.

ZAYA1-VL-8B는 시각적 이해 (visual understanding), OCR (광학 문자 인식), 문서 추론 (document reasoning), 그라운딩 (grounding), 바운딩 박스 (bounding boxes), 그리고 GUI 상호작용에 탁월하며, 컴퓨터 사용 에이전트 (computer use agents)를 위한 강력한 소형 VLM (vision-language model)이 됩니다.

아래 예시를 통해 모델이 작동하는 모습을 확인해 보세요.

ZAYA1-VL-8B는 많은 경쟁사들이 사용하는 수조 개의 토큰과 달리 약 1,400억 개의 멀티모달 (multimodal) 토큰으로 학습되었습니다.

우리는 방대한 비디오 중심의 코퍼스 (corpora)가 아닌, 고품질의 이미지 및 문서 데이터에 집중하여 더 정교하고 효율적인 학습 레시피 (training recipe)를 가능하게 했습니다.

ZAYA1-VL-8B는 몇 안 되는 컴팩트한 MoE VLM 중 하나입니다. 대부분의 VLM은 밀집형 (dense) 모델인 반면, 대부분의 MoE VLM은 훨씬 더 큽니다.

MoE는 멀티모달 설정, 특히 소규모 규모에서 학습시키기가 어렵습니다. ZAYA1-VL-8B는 그러한 도전 과제들이 극복 가능하다는 것을 보여줍니다.

우리가 해결해야 했던 두 가지 MoE-VLM 학습 과제는 다음과 같습니다:

→ 효과적인 배치 크기 (batch size) 붕괴. 우리는 정답 토큰 (answer tokens)에 대해서만 학습하며, 그 후 MoE 라우팅 (routing)이 배치를 전문가 (experts)들로 분할합니다. 해결책: 훨씬 더 큰 배치 크기.
→ 언어 전용에서 언어+시각으로의 전환이 라우팅을 불안정하게 만듭니다.

라우팅을 안정화하기 위해, 우리는 핵심적인 아키텍처 수정 사항을 도입했습니다: MLP 및 CCA 가중치에 시각 전용 LoRA 어댑터 (LoRA adapters)를 도입하여 시각 토큰에서만 활성화되도록 했습니다.

이를 통해 새로운 전문가를 처음부터 학습시킬 필요 없이 모델에 전용 시각 용량을 부여합니다.

우리는 ZAYA1-VL-8B를 Apache 2.0 라이선스로 출시합니다.

블로그:
https://zyphra.com/post/zaya1-vl-8b

기술 보고서 (Technical report):
http://zyphra.com/zaya1-vl-8b-technical-report

가중치 (Weights):
http://huggingface.co/Zyphra/ZAYA1-VL-8B

@ZyphraAI
는 샌프란시스코(San Francisco, CA)에 본사를 둔 오픈 초지능 (open superintelligence) 연구 및 제품 기업으로, 개인과 조직이 그들의 잠재력을 최대한 발휘할 수 있도록 돕는 인간 정렬 (human-aligned) AI를 구축하는 것을 사명으로 합니다.

저희와 함께하기 위해 지원하세요!

AI 자동 생성 콘텐츠

원문 바로가기

ZAYA1-VL-8B는 많은 경쟁사들이 사용하는 수조 개의 토큰과 달리 약 1,400억 개의 멀티모달 (multimodal) 토큰으로

요약

핵심 포인트

댓글