Apache 2.0 라이선스로 ZAYA1-VL-8B를 출시합니다.
요약
Zyphra가 Apache 2.0 라이선스로 소형 MoE 기반 시각-언어 모델인 ZAYA1-VL-8B를 출시했습니다. 이 모델은 이미지 토큰에 양방향 어텐션을 적용하고 시각 전용 LoRA를 도입하여 높은 지능 밀도와 추론 효율성을 달성했습니다. 특히 OCR, 문서 추론, GUI 상호작용에 탁월하여 컴퓨터 사용 에이전트를 위한 강력한 소형 VLM으로 설계되었습니다.
핵심 포인트
- 700M 활성 파라미터 / 8B 전체 파라미터를 가진 효율적인 MoE(Mixture-of-Experts) 구조
- 이미지 토큰에 양방향 어텐션(Bidirectional Attention)을 적용하여 시각적 이해도 향상
- 시각 전용 LoRA 어댑터를 통해 새로운 전문가 학습 없이도 시각 전용 용량 확보 및 라우팅 안정화
- 고품질 이미지 및 문서 데이터 중심의 효율적인 학습 레시피 적용
- Apache 2.0 라이선스로 공개되어 오픈 소스 활용성 극대화
오늘 저희는 첫 번째 시각-언어 모델 (Vision-Language Model, VLM)인 ZAYA1-VL-8B를 출시합니다.
ZAYA1-VL-8B는 @AMD에서 학습된 ZAYA1-8B 베이스를 기반으로 구축된 700M 활성 파라미터 / 8B 전체 파라미터 규모의 MoE (Mixture-of-Experts) 모델입니다. 저희는 모델 크기 대비 강력한 성능을 달성하여 선도적인 지능 밀도 (Intelligence Density)와 추론 효율성 (Inference Efficiency)을 확보했습니다.
저희는 두 가지 근본적인 아키텍처 혁신을 통해 이러한 지능 효율성을 달성했습니다:
- 이미지 토큰은 언어와 달리 인과적 (Causal)이지 않기 때문에, 이미지 토큰에 대해서만 양방향 어텐션 (Bidirectional Attention)을 적용했습니다.
- 시각 전용 LoRA (Low-Rank Adaptation) 파라미터 - 이를 통해 모델에 전용 시각 전용 용량을 부여합니다.
ZAYA1-VL-8B는 시각적 이해 (Visual Understanding), OCR, 문서 추론 (Document Reasoning), 그라운딩 (Grounding), 바운딩 박스 (Bounding Boxes), 그리고 GUI 상호작용에 탁월하며, 컴퓨터 사용 에이전트 (Computer Use Agents)를 위한 강력한 소형 VLM 역할을 수행합니다.
아래 예시를 통해 모델이 작동하는 모습을 확인해 보세요.
ZAYA1-VL-8B는 수조 개의 토큰을 사용하는 많은 경쟁사들과 달리 약 140B 개의 멀티모달 토큰 (Multimodal Tokens)으로 학습되었습니다.
저희는 방대한 비디오 중심의 코퍼스 (Corpora)가 아닌, 고품질 이미지 및 문서 데이터에 집중하여 더 정교하고 효율적인 학습 레시피 (Training Recipe)를 가능하게 했습니다.
ZAYA1-VL-8B는 몇 안 되는 소형 MoE VLM 중 하나입니다. 대부분의 VLM은 밀집형 (Dense) 모델인 반면, 대부분의 MoE VLM은 훨씬 더 큰 규모를 가집니다.
MoE는 멀티모달 환경, 특히 소규모 환경에서 학습시키기가 어렵습니다. ZAYA1-VL-8B는 그러한 도전 과제들이 극복 가능하다는 것을 보여줍니다.
저희가 해결해야 했던 두 가지 MoE-VLM 학습 과제는 다음과 같습니다:
→ 효과적인 배치 크기 (Batch Size) 붕괴. 저희는 정답 토큰 (Answer Tokens)에 대해서만 학습하며, 이후 MoE 라우팅 (Routing)이 배치를 전문가 (Experts)들에게 분산시킵니다. 해결책: 훨씬 더 큰 배치 크기 사용.
→ 언어 전용에서 언어+시각으로의 전환이 라우팅을 불안정하게 만듭니다.
라우팅을 안정화하기 위해, 저희는 핵심적인 아키텍처 수정 사항을 도입했습니다: MLP 및 CCA 가중치에 시각 전용 LoRA 어댑터 (LoRA Adapters)를 도입하여 시각 토큰에서만 활성화되도록 했습니다.
이를 통해 새로운 전문가를 처음부터 학습시킬 필요 없이 모델에 전용 시각 용량을 부여할 수 있습니다.
저희는 ZAYA1-VL-8B를 Apache 2.0 라이선스로 출시합니다.
블로그:
https://zyphra.com/post/zaya1-vl-8b
기술 보고서 (Technical Report):
http://zyphra.com/zaya1-vl-8b-technical-report
가중치 (Weights):
http://huggingface.co/Zyphra/ZAYA1-VL-8B
@ZyphraAI
는 캘리포니아주 샌프란시스코에 본사를 둔 오픈 초지능 (open superintelligence) 연구 및 제품 기업으로, 개인과 조직이 그들의 잠재력을 최대한 발휘할 수 있도록 돕는 인간 정렬 (human-aligned) AI를 구축하는 것을 사명으로 삼고 있습니다.
저희와 함께하기 위해 지원하세요!
AI 자동 생성 콘텐츠
본 콘텐츠는 X @zyphraai (자동 발견)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기