본문으로 건너뛰기

© 2026 Molayo

HuggingFace헤드라인2026. 05. 07. 19:53

Aya Vision: 다국어 멀티모달리티의 경계를 확장하는 심층 분석

요약

Aya Vision은 Cohere For AI가 개발한 오픈 웨이트 다국어 멀티모달 비전-언어 모델(VLM) 가족으로, 23개 언어에 걸친 강력한 언어 및 시각 이해 능력을 제공합니다. 이 모델은 합성 어노테이션, 번역/재구성 등을 통해 데이터 규모를 확장하고, 고해상도 이미지 처리를 위해 동적 리사이징과 Pixel Shuffle 다운샘플링 기법을 적용했습니다. Aya Vision 8B와 32B는 경쟁사 대비 뛰어난 성능을 보여주며, 연구 커뮤니티에 오픈 웨이트로 공개되어 다국어 멀티모달 AI 발전에 기여합니다.

핵심 포인트

  • Aya Vision은 23개 언어를 지원하는 강력한 다국어 멀티모달 VLM입니다.
  • 고해상도 이미지 처리를 위해 동적 리사이징과 Pixel Shuffle 다운샘플링 기술을 사용했습니다.
  • 모델 성능 향상을 위해 합성 어노테이션 및 번역/재구성 기법으로 데이터셋 규모를 확장했습니다.
  • Aya Vision 8B와 32B 모델은 오픈 웨이트로 공개되어 연구 커뮤니티의 접근성을 높였습니다.
  • 훈련 과정은 '시각-언어 정렬'과 '지도 강화 학습(SFT)'의 2단계로 진행되었습니다.

8B32B 파라미터를 가진 비전-언어 모델 (VLMs) 을 통해 우리는 AI 의 가장 큰 도전 과제 중 하나인 다국어 성능을 멀티모달 모델로 가져오기에 대응하고 있습니다.

Aya Vision 은 Cohere For AI 의 최신 오픈 웨이트 다국어 및 멀티모달 모델 가족으로, 23 개 언어에 걸친 언어와 비전 이해의 강력한 기반이 되도록 설계되었습니다. 이는 성공적인 Aya Expanse(최신 다국어 언어 모델) 을 바탕으로 구축되었으며, 고급 기법의 조합을 사용하여 확장되었습니다. 이러한 기법에는 합성 어노테이션, 번역 및 재구성을 통한 다국어 데이터 규모 확대, 그리고 멀티모달 모델 병합이 포함되며, 이는 다국어 환경에서 언어와 비전 이해를 모두 향상시키는 핵심 방법입니다.

결과적으로, 우리의 모델은 이미지 캡션링, 시각적 질문 답변, 텍스트 생성, 그리고 텍스트 및 이미지를 명확하고 자연스러운 언어 텍스트로 번역하는 등 다양한 작업에서 잘 수행됩니다. 우리는 Aya Vision 모델을 평가하기 위해 새로운 오픈 엔드 비전-언어 벤치마크인 AyaVisionBench 와 23 개 언어로 번역된 Wild Vision Bench 의 다국어 버전 (mWildVision) 을 포함한 데이터 세트 집합을 사용했습니다. 이 두 가지 모두 연구용으로 공개했습니다.

쌍대 비교에서, Aya Vision 32B 는 AyaVisionBench 에서 50% 에서 64% 까지, mWildVision 에서 23 개 언어에 걸쳐 평균 52% 에서 72% 까지 승률로 Llama-3.2 90B Vision, Molmo 72B, Qwen2.5-VL 72B 와 같은 그 크기보다 2 배 이상 큰 모델을 능가합니다.

우리의 컴팩트하고 효율적인 모델인 Aya Vision 8B 은 파라미터 클래스에서 다국어 멀티모달 분야에서 최고의 성능을 달성하며, Qwen2.5-VL 7B, Pixtral 12B, Gemini Flash 1.5 8B, Llama-3.2 11B Vision, Molmo-D 7B, Pangea 7B 와 같은 선도적 모델을 AyaVisionBench 에서 최대 79% 승률로, mWildBench 에서 81% 로 능가합니다.

우리는 8B 및 32B 모델을 연구 커뮤니티를 위해 오픈 웨이트로 공개하여 다국어 멀티모달 진전을 가속화합니다. 이 블로그 포스트에서는 Aya Vision 모델의 주요 기술적 세부 사항을 공유합니다.

고성능 비전-언어 모델을 위해서는 임의의 해상도의 이미지를 처리하는 것이 중요합니다. 특히 고해상도 이미지입니다. Aya Vision 에서 이 기능을 활성화하기 위해, 우리는 동적으로 더 높은 해상도의 이미지를 여러 타일로 재조정 및 분할하여 이미지 인코더에서 풍부한 이미지 특징을 생성합니다. Aya Vision 모델에서는 최근 출시된 SigLIP2-patch14-384 모델을 비전 인코더의 초기화용으로 사용합니다.

동적 리사이징은 고해상도 이미지를 처리할 수 있게 하지만, 이는 비전-언어 연결기와 LLM 디코더를 통해 더 많은 이미지 토큰이 통과되도록 합니다. 지연 시간과 Throughput 를 개선하기 위해, 우리는 이미지 토큰의 수를 4 배로 압축하는 Pixel Shuffle 라는 다운샘플링 방법을 사용합니다. 다운샘플링 후, 이미지 토큰은 비전-언어 연결기를 통해 언어 모델 입력 임베딩에 정렬되어 LLM 디코더로 전달됩니다.

텍스트 디코더를 위해, 우리는 다국어 언어 모델을 사용합니다. Aya Vision 8B 의 경우, Cohere Command R7B 에서 초기화된 LLM 을 사용하여 명령 수행 및 세계 지식을 개선하고, Aya Expanse 레시피 (다양한 다국어 데이터, 모델 병합, 선호도 훈련) 를 추가로 포스트 훈련했습니다. Aya Vision 32B 의 경우, 그 최신 다국어 성능을 기반으로 Aya Expanse 32B 에서 언어 모델을 초기화합니다.

우리는 Aya Vision 모델2 단계로 훈련했습니다 – 시각 - 언어 정렬 (vision-language alignment)지도 강화 학습 (supervised fine-tuning, SFT). 시각 - 언어 정렬 단계에서는 시각 - 언어 연결자만 훈련되며, 시각 인코더와 언어 모델 가중치는 고정됩니다. 이는 이미지 인코더 특징을 언어 모델 임베딩 공간으로 매핑함으로써 기초적인 시각 - 언어 이해를 가능하게 합니다. SFT 단계에서는 다양한 다중 모달리티 (multimodal) 작업 집합에서 23 개 언어로 연결자와 언어 모델을 모두 훈련합니다.

다국어 시각 - 언어 모델을 개발하는 과정에서 가장 큰 도전 과제 중 하나는 소수 언어에 대한 강력한 성능을 보장하는 것입니다. 이를 해결하기 위해 우리는 먼저 영어의 다양한 고품질 데이터셋 풀을 사용하여 합성 주석을 수집하여 다국어 다중 모달리티 (multimodal) 주석의 기초를 마련했습니다. 영어 데이터셋의 합성 주석 후, 데이터를 23 개 언어로 번역한 대량 데이터를 확보했습니다. 번역 아티팩트를 피하고 정밀한 답변과 함께 유창한 텍스트 특성을 유지하기 위해, 우리는 원 고품질 합성 샘플과 매칭하여 번역된 프롬프트/생성 쌍을 다시 표현 (rephrased) 했습니다. 이는 실제 데이터셋이 부족한 언어의 범위를 확장합니다. 이는 언어적 유창성과 시각 - 텍스트 간의 정렬을 개선하여 Aya Vision 이 여러 언어에서 우수한 이미지 이해 능력을 발휘할 수 있게 합니다.

우리의 8B 모델은 원본 학술 데이터셋으로만 지도 강화 학습되었을 때, Pangea 7B (다국어 VLM) 에게 대항하여 23 개 언어에서 40.9% 승률을 기록하지만, 합성 주석 및 다국어 데이터 확장으로 인해 58.1% 승률로 17.2%의 향상을 보입니다. 이 중요한 개선은 다국어 데이터 커버리지에 대한 투자 효과성을 보여줍니다.

최고 수준의 시각 - 언어 모델은 이미지 이해뿐만 아니라 대화적 컨텍스트에서도 우수해야 하며, 모델이 이미지 및 텍스트 입력에 대해 고품질의 응답을 생성할 것으로 기대됩니다. 이를 해결하기 위해, 이전 모델 병합 (model merging) 연구에서 영감을 받아 여러 훈련된 모델을 결합하는 기법을 사용하여 기본 언어 모델과 정제된 시각 - 언어 모델을 병합했습니다.

모델 병합은 최종 모델의 생성 능력을 향상시켜 AyaVisionBench 에서 Pangea 7B 에게 대항하여 23 개 언어에서 70% 승률을 달성하며, 병합 전 모델 대비 다중 모달리티 승률을 11.9% 개선합니다.

다중 모달리티 모델 병합은 또한 mArenaHard 데이터셋으로 측정된 텍스트 전용 작업에서 Aya Vision 모델을 다른 선도적인 시각 - 언어 모델과 비교하여 우수하게 할 수 있게 합니다.

마지막으로, 우리는 8B 에서 32B 로 레시피를 확장하여, 더 강력한 텍스트 백본 (text-backbone) 초기화 및 승률 향상에 의해 상태-of-the-art 오픈 웨이트 다국어 시각 - 언어 모델인 Aya Vision 32B 를 완성했습니다. 이는 Llama-3.2 90B Vision, Molmo 72B, Qwen2.5-VL 72B 와 같은 2 배 이상의 크기를 가진 모델을 승률 (49%~63%) 및 mWildVision 평균 (52%~72%) 에서 23 개 언어에 걸쳐 상회합니다.

Aya Vision 모델과 함께, 우리는 실제 세계 응용 프로그램을 기반으로 구축된 23 개 언어와 9 개의 다른 작업 범주를 포함하고, 각 언어당 135 개의 이미지 - 질문 쌍을 가진 고품질 다국어 시각 - 언어 벤치마크인 AyaVisionBench 를도 공개했습니다.

우리는 다국어 멀티모달 평가의 발전을 촉진하기 위해 이 평가 세트를 연구 커뮤니티에 공개합니다. 이 데이터셋은 캡션 생성, 차트 및 그림 이해, 두 이미지 간 차이 식별, 일반적 시각 질문 답변 (VQA), OCR, 문서 이해, 텍스트 전사, 논리와 수학이 포함된 추론, 스크린샷을 코드로 변환하는 등 다양한 범위의 비전-언어 작업을 수행할 모델의 능력을 평가하기 위해 설계되었습니다. 다국어와 작업 유형을 통합함으로써 이 데이터셋은 통역 및 멀티모달 이해를 평가하는 광범위하고 도전적인 평가 프레임워크를 제공합니다.

이 데이터셋을 만들기 위해 우리는 Cauldron held-out test set(테스트 세트) 에서 이미지를 선택했습니다. 이는 50 개 이상의 고품질 데이터셋에서 유래한 대규모 컬렉션으로, 훈련 과정에서 보지 않은 이미지로 구성됩니다. 각 이미지마다 답변을 위해 명시적으로 시각적 맥락을 요구하는 질문을 생성했습니다. 이 질문들은 합성적으로 생성된 후 두 단계의 검증 과정을 통해 정제되었습니다. 먼저 인간 주석 작성자들이 각 질문을 검토하고 검증하여 명확하고 관련성이 있으며 이미지 의존도가 높음을 보장했습니다. 이러한 엄격한 선택 및 검증 과정은 비전-언어 모델을 다국어 및 실제 환경에서 평가하는 데 견고한 벤치마크 역할을 합니다.

의사소통은 다양한 형태와 언어로 이루어집니다. 우리의 선도적인 연구 개발을 통해, 우리는 텍스트 또는 시각적 영역에서 23 개의 서로 다른 언어로 연결을 용이하게 하는 모델을 출시했습니다.

Aya Vision 은 광범위한 실용적인 응용 분야를 가지며, 그 중 하나는 WhatsApp 에의 접근성입니다. WhatsApp 은 세계에서 가장 널리 사용되는 통신 플랫폼 중 하나이며, 이 기능을 통해 수많은 언어를 사용하는 전 세계 시민들이 매일 사용하는 플랫폼에서 Aya Vision 의 능력을 활용할 수 있습니다.

시작하기 위해:

Hugging Face 의 Aya Vision 컬렉션에서 가중치 및 데이터셋을 다운로드하세요.
Hugging Face Space 를 사용하여 Aya Vision 을 시도하거나 WhatsApp 에서 텍스트로 보내세요.
Cohere For AI 의 Colab 예제를 사용하여 Aya 를 구축하세요.
다국어 관련 지속적인 노력에 대해 자세히 알아보세요.

이 작업은 핵심 Aya Vision 기술 팀 없이는 불가능했을 것입니다:
Saurabh Dash, Oliver Nan, John Dang, Arash Ahmadian Dehkordi, Shivalika Singh, Alejandro Salamanca, Bharat Venkitesh, Vlad Shmyhlo, Walter Beller-Morales, Jeremy Pekmez, Jason Ozuzu, Madeline Smith, Marzieh Fadaee, Manoj Govindassamy, Sudip Roy, Matthias Gallé, Beyza Ermis, Ahmet Üstün, Sara Hooker.

또한 다양한 방식으로 지원해 주신 더 넓은 Cohere For AI 와 Cohere 팀 없이는 불가능했을 것입니다. Sungjin Hong, Michael Kozakov, Pierre Richemond, Brittawnya Prince, Jim Payne, Kyle Lastovica, Jeff Colen, Jenna Cook, Viraat Aryabumi, Trent Fowler, Linus Chui, Meor Amer, Lucas Fayoux, Kyle Lastovica, Billy Trend, Acyr Locatelli, Morgan Norman, Florian Strub, Jon Ander Campos, Nick Frosst, Phil Blunsom, Aidan Gomez, Ivan Zhang 에 특별한 감사의 말씀을 드립니다.

Hugging Face 에 이 작업이 이루어질 수 있도록 도와주신 Yoni Gozlan, Arthur Zucker, Pedro Cuenca, Aritra Roy Gosthipaty, Merve Noyan, Vaibhav Srivastav 에 특별한 감사를 표합니다.

[1] Aya Expanse: Combining Research Breakthroughs for a New Multilingual Frontier
[2] Pangea: A Fully Open Multilingual Multimodal LLM for 39 Languages
[3] WildVision: Evaluating Vision-Language Models in the Wild with Human Preferences

[4] SigLIP 2: 다국어 시각 - 언어 인코더의 개선된 의미 이해, 위치 파악 및 밀집 특징
[5] 시각 - 언어 모델을 구축할 때 중요한 것은 무엇인가?
[6] Molmo 와 PixMo: 최첨단 시각 - 언어 모델에 대한 오픈 웨이트와 오픈 데이터
[7] GPT-4V 에 얼마나 다가섰는가? 오픈 소스 스위트로 상용 다중 모달 모델을 추격하는 방법

AI 자동 생성 콘텐츠

본 콘텐츠는 Hugging Face Blog의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
1

댓글

0