본문으로 건너뛰기

© 2026 Molayo

HuggingFace헤드라인2026. 05. 07. 19:29

Hugging Face 에서 Llama 4 Maverick & Scout 환영

요약

Meta가 Llama 4 Maverick와 Scout라는 강력한 원생적 멀티모달 모델을 Hugging Face 생태계에 출시하며 AI 분야의 중요한 도약을 알렸습니다. 이 두 모델은 각각 대규모(Maverick) 및 효율성(Scout)에 초점을 맞추었으며, 최대 40조 토큰으로 훈련되어 200개 언어와 멀티모달 기능을 지원합니다. 특히 Scout는 온-더-플라이 양자화를 통해 접근성을 높였고, 두 모델 모두 Hugging Face의 `transformers` 및 TGI를 완벽하게 통합하여 프로덕션 환경에서의 사용이 용이합니다.

핵심 포인트

  • Llama 4 Maverick와 Scout 출시: 각각 대규모 성능(Maverick)과 효율성/접근성(Scout)에 최적화된 두 모델을 제공합니다.
  • 원생적 멀티모달리티 및 다국어 지원: 텍스트와 이미지를 처리할 수 있으며, 아랍어, 스페인어 등 200개 언어를 포함한 광범위한 데이터로 훈련되었습니다.
  • 최첨단 배포 최적화: Scout는 온-더-플라이 양자화를 통해 접근성을 높였고, Maverick은 BF16/FP8을 지원하여 효율적인 배포가 가능합니다.
  • Hugging Face 생태계 완벽 통합: `transformers` 라이브러리 및 TGI를 통한 쉬운 로드, 추론, 미세 조정이 가능하며, Xet 스토리지로 커뮤니티 협업 환경이 개선되었습니다.
  • 획기적인 컨텍스트 길이 지원: Instruct 모델은 각각 10M(Scout)와 1M(Maverick)에 달하는 매우 긴 컨텍스트 길이를 지원합니다.

오늘 출시된 이 강력한 원생적 멀티모달 모델들은 중요한 도약입니다. 우리는 Hugging Face 생태계, 즉 transformers 와 TGI 를 일일부터 원활하게 통합하도록 Meta 와 긴밀히 협력했습니다.

이것은 Llama 4 와의 여정의 시작에 불과합니다. 앞으로 며칠 동안 우리는 Maverick 과 Scout 로 함께 커뮤니티와 협력하여 놀라운 모델, 데이터셋 및 애플리케이션을 구축할 것입니다! 🔥

Meta 가 개발한 Llama 4 는 새로운 자동 회귀 혼합 전문가 (MoE) 아키텍처를 소개합니다. 이 세대는 두 모델을 포함합니다:

  • 능력이 뛰어난 Llama 4 Maverick는 총 약 400B 에서 17B 활성 파라미터와 128 명의 전문가를 사용합니다.
  • 효율적인 Llama 4 Scout는 총 약 109B 에서 17B 활성 파라미터와 16 명의 전문가를 사용합니다.

두 모델 모두 원생적 멀티모달성을 위한 초기 융합을 활용하여 텍스트 및 이미지 입력을 처리할 수 있습니다. Maverick 과 Scout 는 최대 40 조 토큰으로 훈련되었으며, 아랍어, 스페인어, 독일어, 힌디어를 포함한 12 개 언어의 특정 미세 조정 지원이 있는 200 개 언어에 걸친 데이터를 포함합니다.

배포를 위해 Llama 4 Scout 는 단일 서버 등급 GPU 를 통해 온-더-플라이 4 비트 또는 8 비트 양자화를 통해 접근성을 위해 설계되었습니다. Maverick 은 BF16 과 FP8 형식으로 제공됩니다. 이 모델들은 Hugging Face Hub 의 모델 저장소에서 사용할 수 있는 커스텀 Llama 4 커뮤니티 라이선스 계약 하에 출시됩니다.

커뮤니티가 즉시 이러한 최첨단 모델을 활용하도록 돕기 위해 우리는 다음과 같은 통합을 발표합니다:

**Hub 의 모델 체크포인트:**Hugging Face Hub 의 meta-llama 조직 아래에서 Llama 4 MaverickLlama 4 Scout모델 가중치가 직접적으로 제공됩니다. 이는 기본 및 명령어 튜닝 변형을 모두 포함합니다. 이를 통해 쉬운 접근, 탐색 및 다운로드가 가능합니다. 모델 카드에서 라이선스 조건을 수락해야만 가중치를 액세스할 수 있습니다.

Hugging Face: 지금 바로 구축하세요! Llama 4 모델은 transformers 통합 (버전 v4.51.0) 과 완전히 통합되어 있습니다. 이는 익숙한 API 를 사용하여 쉬운 로드, 추론 및 미세 조정을 가능하게 하며, native 멀티모달 기능과 TRL 같은 downstream 라이브러리를 지원합니다.

transformers 의 텐서 병렬 자동 지원및 자동 장치 매핑.**Text Generation Inference (TGI) 지원:**최적화되고 확장 가능한 배포를 위해 두 모델은 TGI 로 지원됩니다. 이는 고 트루풋 텍스트 생성을 가능하게 하여 Llama 4 를 프로덕션 애플리케이션에 통합하기 쉽게 만듭니다.

**양자화 지원:**Scout 에 대한 온-더-플라이 int4 양자화를 위한 코드가 제공되어 성능 저하를 최소화하면서 더 작은 하드웨어 푸트프린트에서 배포할 수 있습니다. Maverick 은 호환 가능한 하드웨어에서 효율적인 배포를 위해 FP8 양자화된 가중치를 포함합니다.

**Xet 스토리지:**커뮤니티 미세 조정 모델의 업로드, 다운로드 및 더 빠른 반복을 지원하기 위해 우리는 모든 Llama 4 모델을 Xet 스토리지 백엔드로 출시했습니다. 이 스토리지 시스템은 더 빠른 업로드 및 다운로드를 위해 설계되었으며 Llama 4 로 약 25% 중복 제거를 달성합니다. 모든 파생 모델 (미세 조정, 양자화 등) 은 더 높은 중복 제거 (~40%) 를 가져 커뮤니티에 추가 시간 및 대역폭을 절약합니다.

Llama 4 모델은 컨텍스트 길이가 256K 로 사전 훈련되었습니다. Instruct 모델은 훨씬 더 긴 컨텍스트 길이를 지원하도록 미세 조정되었습니다: 대형 128 전문가 버전 (Maverick) 에서 1M, 16 전문가 버전 (Scout) 에서 10M (!).

ModelInstructContext Length
Scout (16E)10M
...

이러한 긴 컨텍스트 길이는 몇 가지 매우 흥미로운 아키텍처 선택을 수반합니다. 공식적인 기술 보고서가 발표되기 전까지, 우리는 현재 이 정도를 알고 있습니다.

No RoPE (NoPE) 레이어

2022 년부터 연구된 NoPE (cute name, +1 charisma points), 는 트랜스포머 모델에서 가장 많이 적용되는 전통적인 위치 인코딩 스키ーム, 예를 들어 RoPE 를 포기합니다. Llama 4 의 경우, NoPE 레이어는 4 개의 레이어 중 하나에 사용됩니다. 이러한 레이어는 긴 컨텍스트에 매우 중요하며, 전체 카우셜 마스크를 컨텍스트에 사용합니다.

RoPE 레이어 (3 개 중 4 개) 의 경우, chunked attention 이 사용됩니다.

Meta 는 NoPE 레이어의 interleaved 사용과 온도 스케일링 (아래에서 설명됨) 을 iRoPE 아키텍처라고 지칭합니다.

위치 인코딩에 대해 더 배우고 싶다면, Chris 의 최근 포스트를 추천합니다.

Chunked attention(RoPE 레이어)

메모리 요구량을 줄이기 위해 Llama 4 는 전통적인 RoPE 위치 인코딩과 함께 작동하는 레이어 (3 개 중 4 개의 디코더 레이어) 에서 chunked attention 을 사용합니다. chunked attention 이 어떻게 작동하는지 시각화하는 가장 좋은 방법은 transformers 소스 코드에서 추출한 ASCII 표현을 통해 확인하는 것입니다:

'What' : 0 ■ ⬚ ⬚ ⬚ ⬚ ⬚
'▁is' : 1 ■ ■ ⬚ ⬚ ⬚ ⬚
'▁ch' : 2 ■ ■ ■ ⬚ ⬚ ⬚
...

이 다이어그램은 chunked attention 길이가 3 인 경우 사용될.attention mask 를 보여줍니다. Llama 4 의 경우, chunked attention 길이는 8192 입니다. 이는 RoPE 레이어가 컨텍스트를 8K 블록만 추적할 수 있지만, NoPE 레이어는 전체 컨텍스트에 접근할 수 있음을 의미합니다. Sliding Window Attention 의 더 메모리 및 컴퓨팅 효율적인 버전으로 볼 수 있습니다.

Attention Temperature Tuning

긴 컨텍스트에 적용된 attention 블록에는 문제가 있습니다: 시퀀스 길이가 증가함에 따라 attention probability scores 는 0 으로 fade 합니다. 이는 매우 긴 시퀀스에 softmax 함수를 적용하는 것으로 알려진 결과입니다. 이 문제를 해결하기 위해 Llama 4 는 모델이 temperature tuning이라고 부르는 scaled softmax 를 사용합니다. 이는 NoPE 레이어에 적용되지만, RoPE 레이어에는 적용되지 않습니다 (이들은 더 짧은 서브 시퀀스를 attention 합니다).

이 방법은 임의의 컨텍스트 길이를 위한 일반화를 개선하는 방법이며, 아마도 Llama 4 Scout 에서 10M 컨텍스트 길이를 달성하기 위한 핵심 요소 중 하나일 것입니다.

QK Normalization

Llama Scout (16 experts 버전) 은 RoPE 레이어에 Query 와 Key 상태에 대한 RMS normalization 을 추가합니다. 이는 RoPE embeddings 이 적용된 후, 학습 가능한 파라미터 없이 수행됩니다.

MoE interleaving

Llama Scout 는 16 명의 전문가로 구성된 전체 MoE 입니다. Llama Maverick 은 128 명의 전문가를 사용하지만, MoE 와 dense 레이어가 교대로 사용됩니다. 따라서, 전문가들은 레이어의 절반에 적용됩니다.

Co-distillation

Llama Maverick 은 학생과 teacher logit 을 동적으로 가중치하는 새로운 손실 함수를 사용하여 더 큰 모델인 Llama Behemoth 에서 co-distilled 되었습니다.

MetaP

모델은 훈련 예산과 모델 크기 등 다양한 차원을 포함한 하이퍼파라미터를 최적화하기 위해 MetaP 를 활용합니다. transformers 를 사용하여 Llama 4 를 시작하는 것은 간단합니다. transformers v4.51.0 또는 그 이상의 버전을 설치하세요 (pip install -U transformers huggingface_hub[hf_xet])

이전 내용과 이어지는 번역입니다:

예를 들어, Tensor Parallel 을 사용하여 최대 속도로 두 이미지에 대해 답변하는 instruction-tuned Maverick 모델을 사용하는 간단한 예제를 보겠습니다. 이 스크립트를 실행하려면 8 개의 GPU 가 있는 인스턴스를 사용해야 하며, 다음과 같은 명령어를 사용합니다: torchrun –nproc-per-instance=8 script.py

from transformers import AutoProcessor, Llama4ForConditionalGeneration
import torch
model_id = "meta-llama/Llama-4-Maverick-17B-128E-Instruct"
...

모델 카드 (Llama 4 Maverick (~400B) 와 Llama 4 Scout (~109B)) 를 확인하여 자세한 사용 지침, 다중 모달 예제, 특정 프롬프트 포맷 (예: 시스템 프롬프트), 양자화 세부 사항 및 고급 설정 옵션을 확인하세요!

평가 결과는 이러한 모델의 강도를 입증하며, Llama 3.1 405B 와 같은 전구체보다 훨씬 뛰어난 최첨단 성능을 보여줍니다. 예를 들어, 추론 및 지식 작업에서 instruction-tuned Maverick 은 MMLU Pro 에서 80.5%, GPQA Diamond 에서 69.8% 를 달성하며, Scout 는 각각 74.3% 와 57.2% 를 기록합니다.

평가 결과 클릭하여 확장

| 카테고리 | 벤치마크 | # Shots | 지표 | Llama 3.1 70B | Llama 3.1 405B | Llama 4 Scout |
Llama 4 Maverick |
|---|---|---|---|---|---|---|
| 추론 및 지식 | MMLU | 5 | macro_avg/acc_char | 79.3 | 85.2 | 79.6 | 85.5 |
| MMLU-Pro | 5 | macro_avg/em | 53.8 | 61.6 | 58.2 | 62.9 |
| ... |
| 카테고리 | 벤치마크 | # Shots | 지표 | Llama 3.3 70B | Llama 3.1 405B | Llama 4 Scout |
Llama 4 Maverick |
|---|---|---|---|---|---|---|
| 이미지 추론 | MMMU | 0 | accuracy | 다중 모달 지원 없음 | 69.4 | 73.4 |
MMMU Pro^ |
0 | accuracy | 52.2 | 59.6 ||
| MathVista | 0 | accuracy | 70.7 | 73.7 |||
| 이미지 이해 | ChartQA | 0 | relaxed_accuracy | 88.8 | 90.0 |||
| ... |

Llama 4 와 같은 거대한 모델을 출시하는 것은 팀, 지리적 지역 및 많은 VM 을 가로지르는 거대한 노력이 필요합니다. 특별한 순서 없이 Transformers 팀의 Arthur, Lysandre, Cyril, Pablo, Marc, Mohammed 에게 감사드립니다. 이 긴밀한 통합 과정에서 많은 도전 과제를 겪었음에도 불구하고 vLLM 팀의 풍부한 대화, 통찰력, 공유 테스트 및 디버깅에 감사드립니다. 더 큰 최적화 필요성에 대해 TGI 에서 Llama 4 를 지원하기 위해 단독으로 추가한 Mohit 에게 감사드립니다. 이러한 거대 모델은 저장 수준에서 상당한 엔지니어링이 필요합니다. 이 작업에는 Ajit, Rajat, Jared, Di, Yucheng 및 Xet 팀의 나머지 구성원도 많은 노력이 들었습니다.

이 노력에 많은 사람들이 참여했습니다. Hugging Face, vLLM 및 Meta Llama 팀의 brilliant synergy 에 대해 감사드립니다!

AI 자동 생성 콘텐츠

본 콘텐츠는 Hugging Face Blog의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
2

댓글

0