본문으로 건너뛰기

© 2026 Molayo

Dev.to헤드라인2026. 05. 26. 01:24

Llama 4: Meta의 최신 모델 — Scout, Maverick, 그리고 MoE 혁명

요약

Meta가 MoE(Mixture of Experts) 아키텍처를 적용한 Llama 4를 출시했습니다. Scout와 Maverick 두 가지 변체를 통해 효율적인 파라미터 활용과 방대한 지식 보유를 동시에 달성했습니다.

핵심 포인트

  • MoE 아키텍처 적용으로 2T 모델도 17B 수준의 속도로 실행 가능
  • Scout(109B)와 Maverick(2T) 두 가지 변체 제공
  • 낮은 VRAM 요구사항으로 일반 GPU에서도 구동 가능
  • Llama 4 커뮤니티 라이선스로 상업적 이용 허용

Llama 4: Meta의 최신 모델 — Scout, Maverick, 그리고 MoE 혁명

오픈 소스의 표준이 대대적인 업그레이드를 마쳤습니다. 무엇이 새로워졌는지, 그리고 실제로 어떤 변체(variant)를 사용해야 하는지 알아보겠습니다.

Llama 4 개요

Meta는 2025년 4월, 근본적인 아키텍처 변화인 전문가 혼합 (Mixture of Experts, MoE) 방식을 적용하여 Llama 4를 출시했습니다. 두 가지 변체가 동시에 출시되었습니다:

변체 (Variant)아키텍처 (Architecture)총 파라미터 (Total Params)토큰당 활성 파라미터 (Active per Token)최소 VRAM (Q4)
Llama 4 Scout17B × 16 experts109B~17B10 GB
Llama 4 Maverick17B × 128 experts2T~17B10 GB

두 모델 모두 Ollama에서 llama4:latest (Scout를 가리킴) 및 llama4:maverick로 사용할 수 있습니다.

💡 핵심 요약: Meta는 2조(2-trillion) 개의 파라미터를 가진 모델을 훈련하는 데 수백만 달러를 소비했지만, 여러분은 중고 게이밍 GPU에서도 이를 실행할 수 있습니다. "MoE" 방식은 특정 순간에 약 17B 개의 파라미터만 사용한다는 것을 의미합니다. 따라서 속도는 17B 모델처럼 빠르면서도, 훨씬 더 큰 모델의 지식을 보유하게 됩니다.

빠른 시작 (Quick Start)

# Scout (균형 잡힌 모델 — 권장 기본값)
ollama pull llama4:latest

...

⚠️ 풀(pull) 하기 전에 확인하세요: Ollama의 모델 이름은 변경될 수 있습니다. 현재 태그는 https://ollama.com/library/llama4에서 확인하십시오.

Scout vs Maverick: 어떤 것을 선택할까?

사용 사례(Use case)?
├── 일반적인 채팅, 글쓰기, 일상적인 코딩 → Scout (llama4:latest)
├── 심층 지식, 사실 중심의 작업, 연구 → Maverick (llama4:maverick)
...

실질적인 차이점: Maverick은 128개의 전문가(experts)를 보유하고 있으며, Scout는 16개를 보유하고 있습니다. 이는 Maverick의 "집단적 지식"이 훨씬 더 광범위하다는 것을 의미합니다. 즉, 더 많은 패턴, 더 많은 사실, 더 많은 예외 사례(edge cases)를 학습했다는 뜻입니다. 하지만 두 모델 모두 한 번에 약 17B 개의 파라미터만 활성화하기 때문에 토큰당 속도는 거의 동일합니다.

대부분의 사용자에게 권장하는 방법: Scout로 시작하고, 더 깊은 지식이 필요할 때 Maverick으로 업그레이드하세요.

Llama 4가 뛰어난 분야

작업 (Task)등급 (Rating)비고 (Notes)
일반 대화 (General conversation)⭐⭐⭐⭐⭐자연스럽고 유용하며, 환각 (hallucinates) 현상이 드묾
...

"하지만 Meta는 상업적 이용이 불가능하다고 합니다" 문제

이 질문은 끊임없이 제기됩니다. 2026년 5월 기준 실제 상황은 다음과 같습니다:

  • Llama 4는 기존의 "Llama 2 Community License"가 아닙니다 — 훨씬 더 허용 범위가 넓은 Llama 4 Community License를 따릅니다.
  • 상업적 이용 (Commercial use)은 허용됩니다 (월간 활성 사용자 수 7억 명 미만의 기업 대상).
  • 파인튜닝 (Fine-tune) 및 배포가 가능하며, 파인튜닝된 버전을 배포할 수 있습니다.
  • 라이선스 제한 사항: Llama의 출력물을 사용하여 경쟁 모델을 학습시키는 행위는 제한됩니다.

인디 개발자, 스타트업, 그리고 소규모 기업의 경우: 상업적으로 자유롭게 사용할 수 있습니다. FAANG 규모의 대기업의 경우: Meta와 별도의 계약이 필요합니다.

진정으로 제한 없는 오픈 소스 (Open-source)를 원하신다면, DeepSeek-R1 (MIT) 또는 Qwen (Apache 2.0)을 사용하십시오.

실전 벤치마크 (커뮤니티 테스트 완료)

RTX 4090 (24GB) 환경 기준:

모델 (Q4_K_M)tok/sMMLU-ProHumanEval
Llama 4 Scout~4568.276.8
...

핵심 요약: Llama 4 Scout/Maverick은 로컬에서 실행할 수 있는 가장 빠른 고품질 모델입니다. 순수 벤치마크 점수보다 속도가 더 중요하다면, 이들이 실용적인 선택입니다.

전문가 팁 (Pro Tips)

  1. 32K 컨텍스트 제한 (Context limit)과 함께 llama4:maverick을 사용하세요 — 전체 128K를 사용하면 VRAM을 과도하게 소모하고 어텐션 (Attention) 품질이 저하됩니다.
  2. Q2/Q3 양자화 (Quants) 모델은 사용하지 마세요 — MoE 모델은 밀집 (Dense) 모델보다 극단적인 양자화 시 일관성 (Coherence)을 더 급격하게 잃습니다.
  3. 대부분의 설정에서 Scout가 최적의 선택 (Sweet spot)입니다 — 연구 목적이나 사실 관계가 매우 중요한 작업을 수행하는 경우가 아니라면 말이죠.

관련 가이드: Gemma 4 | Qwen | MoE Models

AI 자동 생성 콘텐츠

본 콘텐츠는 Dev.to AI tag의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0