본문으로 건너뛰기

© 2026 Molayo

HuggingFace헤드라인2026. 05. 07. 13:37

Visual Salamandra: 다중 모달 이해의 경계 확장

요약

Visual Salamandra는 70억 파라미터의 기반 모델 위에 구축된 다중 모달 대규모 언어 모델(LLM)로, 이미지와 비디오를 포함한 다양한 시각적 입력과 텍스트 명령을 통합적으로 이해하고 응답할 수 있도록 설계되었습니다. 이 모델은 Google의 SigLIP 인코더와 Late-Fusion 아키텍처를 활용하여 Vision-Language Alignment를 강화했으며, VQA, OCR, 문서 이해 등 광범위한 다중 모달 작업을 수행합니다. 개발 과정에서 4단계에 걸친 체계적인 훈련(프로젝터 사전 학습, 고품질 비전 사전 학습, 명령어 튜닝, 전체 다중 모달 튜닝)을 거쳤으며, 특히 유럽 언어 다양성을 강조하는 Multilingual Instruction-Tuned Framework를 통해 포용성과 성능을 동시에 확보했습니다.

핵심 포인트

  • Visual Salamandra는 70억 파라미터 규모의 LLM으로, 이미지/비디오와 텍스트 명령을 통합 처리하는 다중 모달 능력을 갖추고 있습니다.
  • 핵심 아키텍처는 SigLIP 인코더와 Late-Fusion 기술을 사용하여 시각적 정보와 언어 정보를 효과적으로 정렬(Alignment)합니다.
  • 모델은 4단계의 체계적인 훈련 과정을 거치며, VQA, OCR, 문서 이해 등 다양한 실제 응용 분야에 최적화되었습니다.
  • 개발 과정에서 유럽 언어 다양성을 중시하는 Multilingual Instruction-Tuned Framework를 구축하여 포용성을 높였습니다.
  • 사용 시 주의사항으로, 모호한 입력에 대한 환각(Hallucination) 가능성 및 고위험 애플리케이션에서의 사용 제한이 권고됩니다.

Visual Salamandra 는 이미지 및 비디오에 대한 능력을 확장하여 Salamandra 대형 언어 모델 (LLM) 의 기능을 강화합니다. Visual Salamandra 는 70 억 파라미터의 기반 모델을 바탕으로 하며, 다중 모달 작업을 수행하면서도 컴팩트함과 효율성을 유지합니다.

Vision-Language Alignment(시각 - 언어 정렬) 를 핵심으로 설계된 Visual Salamandra 는 Google 의 SigLIP 인코더 (SigLIP-So400m), 2 레이어 MLP 프로젝터, 그리고 시각적 모달리티와 텍스트 모달리티 사이의 간극을 연결하기 위한 고급 Late-Fusion(후합성) 기술을 통합하여 Salamandra Instructed 7B 모델 위에 구축되었습니다.

이러한 구조는 Visual Salamandra 가 단일 이미지, 여러 이미지 및 비디오부터 순수 텍스트 명령까지 다양한 입력으로부터 문맥적으로 정확한 응답을 이해하고 생성할 수 있는 능력을 부여합니다. 이 개발은 Lab 의 다중 모달 AI 시스템에 대한 더 넓은 지원, 특히 유럽 언어 다양성을 우선시하는 시스템에 대한 약속을 반영합니다.

Salamandra 를 시각 입력에 맞게 적응시키기 위해, Lab 은 Late-Fusion 아키텍처를 중심으로 4 단계의 훈련 과정을 구현했습니다. 이 설정에서 사전 학습된 이미지 인코더 (SigLIP, 384x384 해상도에서 14 패치) 는 이미지 임베딩을 생성하며, 이는 커스텀 훈련된 MLP 프로젝터를 통해 LLM 과 정렬됩니다.

4 개의 훈련 단계는 다음과 같습니다:

Phase 1: Projector Pre-training – 프로젝트르만 학습하여 이미지 특징을 LLM 의 잠재 공간으로 매핑합니다.

Phase 2: High-Quality Vision Pretraining – 개선된 데이터셋 (예: OCR 및 재 캡션링 이미지) 을 사용하여 전체 아키텍처 (인코더, 프로젝터, LLM) 를 공동 훈련합니다.

Phase 3: Instruction Tuning – 모델은 시각적 질문 답변 (VQA), OCR, 기타 Grounded Vision(지향된 시각) 작업 등을 통해 사용자 명령을 따르도록 학습합니다.

Phase 4: Full Multimodal Tuning – 단일/다중 이미지 및 비디오 데이터와 텍스트 만 예제를 포함하여 모델의 일반화를 실제 세계의 다중 입력 시나리오에 최적화합니다.

훈련 전반에 걸쳐 데이터 다양성이 결정적인 역할을 했습니다. 총 610 만 개의 Instruction-Tuning(명령 학습) 인스턴스가 사용되었으며, 그 중 842,000 개의 텍스트 만 샘플이 포함되었습니다. 훈련 코퍼스에는 AI2D, Cambrian, LLaVA Next 와 같은 출처의 데이터를 특징으로 하며, 이는 시각적 Grounding(지향), 문서 이해, 수학적 추론 및 OCR 을 강화하기 위해 선택되었습니다.

Figure 1. Visual Salamandra 7B 훈련 과정 중 데이터 분포

Language Technologies Lab 의 이전 모델과 마찬가지로, Visual Salamandra 는 Multilingual Inclusivity(다언어 포용성) 에 대한 약속을 계속하며, 유럽 언어에 강한 초점을 맞추고 있습니다.

이 접근법은 소외된 언어가 명령 학습 및 시각 작업과의 정렬에서 혜택을 받도록 보장하여, 다중 모달 AI 연구의 자원 격차를 줄이는 데 도움이 됩니다. Visual Salamandra 는 Multimodal Instruction-Tuned Framework(다중 모달 명령 학습 프레임워크) 에 이러한 언어적 다양성을 통합하는 첫 번째 모델 중 하나입니다.

Figure 2. Text Regularization(텍스트 정규화) 로 훈련하고 원래 백본 LLM 과 병합된 모델의 다언어 생성 예제.

Visual Salamandra 는 언어와 시각의 교차점에 있는 다양한 응용 프로그램을 해제합니다:

• Visual Question Answering (VQA): 이미지 또는 비디오에 대해 질문을 하고 문맥에 민감한 정확한 응답을 받습니다.

• Optical Character Recognition (OCR): 문서, 장면 및 차트에서 텍스트를 정확하게 읽기하고 전사합니다.

• 문서 및 차트 이해: 텍스트가 내장된 복잡한 시각적 문서 또는 그래픽 콘텐츠를 분석합니다.

• 수학적 추론: 다중 모달 추론을 통해 시각적으로 기반한 수학 문제를 해결합니다.

• 지시어 기반 이미지 상호작용: 이미지 캡션링 및 로컬라이제이션 작업을 포함하여 시각적 컨텍스트에서 상세한 지시를 따릅니다.

비디오 기능의 추가는 비디오 요약, 이벤트 감지, 다중 모달 스토리텔링 등 더 발전된 개발을 위한 문호를 엽니다...

Visual Salamandra 를 통해 Language Technologies Lab 은 포용적이고 고성능의 기초 모델을 계속 만드는 데 있어 지속적인 리더십을 입증합니다. 최첨단 비전 인코더와 강력한 다국어 LLM 을 조화시킴으로써, 팀은 모달리티 및 언어를 넘어 보이는, 이해하는, 소통하는 차세대 AI 시스템의 다음 단계를 마련하고 있습니다.

Visual Salamandra 는 강력한 다중 모달 능력을 보여주지만, 그 한계점을 언급하는 것이 중요합니다:

• 시각적 입력이 모호할 때 특히 그럴듯하지만 잘못된 답변을 할루시네이션 (hallucinate) 할 수 있습니다.

• 복잡한 OCR 및 밀집 문서 레이아웃에서의 성능은 여전히 도전적입니다.

• 모델은 필터링되고 라이선스된 데이터셋으로 훈련되었으나, 민감한 애플리케이션에 배포될 때 특히 잠재적 편향이나 부정확성에 대해 사용자는 경계해야 합니다.

인간 감독이 가능한 컨텍스트에서 Visual Salamandra 를 사용하는 것을 권장하며, 적절한 평가 없이 고위험 애플리케이션을 피하는 것이 좋습니다.

Visual Salamandra 는 Apache License, Version 2.0 하에 출시되어 연구 및 비상업적 사용을 허용합니다.

Visual Salamandra 를 기반으로 한 향후 릴리스와 도구를 지켜보고, 전체 모델 세부 사항을 우리의 논문에서 확인하세요.

이 작업은 Ministerio para la Transformación Digital y de la Función Pública 와 Plan de Recuperación, Transformación y Resiliencia – EU 를 통해 NextGenerationEU 를 통한 자금 지원에 의해 Modelos del Lenguaje 프로젝트의 프레임워크 내에서 지원 및 자금 조달을 받았습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 Hugging Face Blog의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
1

댓글

0