
Meta Muse Spark 입문 — HealthBench 1위 · Contemplating mode의 전모 가이드
요약
Meta가 MSL을 통해 발표한 첫 번째 프로프라이어터리 모델 Muse Spark를 소개합니다. HealthBench Hard에서 1위를 기록했으며, 멀티 에이전트 병렬 추론 방식인 'Contemplating mode'가 핵심 특징입니다.
핵심 포인트
- Meta의 첫 폐쇄형(Proprietary) 모델 출시
- HealthBench Hard 벤치마크에서 프론티어 모델 중 1위 달성
- Contemplating mode를 통한 멀티 에이전트 병렬 추론 메커니즘 도입
- Llama의 오픈 소스 전략에서 변화를 시도하는 전략적 모델
2026년 4월 8일, Meta는 "Muse Spark"를 발표했습니다. Meta Superintelligence Labs(MSL)가 제작한 첫 번째 모델이며, Llama 계열의 오픈 소스(Open Source) 노선에서 벗어난 **첫 번째 프로프라이어터리 모델(Proprietary Model)**입니다.
이 기사에서는 공식 발표와 독립 평가 기관(Artificial Analysis)의 데이터를 바탕으로, Muse Spark의 벤치마크(Benchmark) · 특징적인 「Contemplating mode」 · 현재의 액세스 방법 · 타 모델과의 활용 구분법을 해설합니다.
-
Meta Muse Spark의 배경과 전략적 의미
-
주요 벤치마크에서의 강점과 약점
-
Contemplating mode (멀티 에이전트 병렬 추론)의 메커니즘
-
현재의 액세스 방법과 API 제공 현황
-
GPT-5.4 · Claude Opus 4.6 · Gemini 3.1 Pro와의 활용 지침
-
최신 LLM 트렌드를 추적하고 싶은 엔지니어
-
LLM 선정 · 모델 비교에 종사하는 개발자
-
Meta AI의 전략 변화에 관심이 있는 분
-
Muse Spark는 Meta가 2026년 4월 8일에 출시한 첫 번째 프로프라이어터리 LLM
-
Alexandr Wang(전 Scale AI CEO)이 이끄는 Meta Superintelligence Labs(MSL)가 개발
-
**HealthBench Hard에서 프론티어 모델 중 1위(42.8)**를 달성
-
종합 스코어는 Intelligence Index 52 (4위 / GPT-5.4: 57, Claude Opus 4.6: 53)
-
코딩 · 에이전트 태스크는 현재 타 모델에 뒤처짐
-
「Contemplating mode」(멀티 에이전트 병렬 추론)로 HLE 스코어를 리드
-
현재는 한정 프리뷰 API + Meta AI 앱을 통해 무료 액세스 가능
Muse Spark는 Meta의 신규 조직인 "Meta Superintelligence Labs(MSL)"가 개발한 첫 번째 모델입니다. MSL의 설립은 2025년 후반으로 거슬러 올라갑니다. Llama 4가 기대에 미치지 못하는 결과로 끝나면서, Mark Zuckerberg가 AI 부문을 근본적으로 재편한 것이 계기입니다.
2026년 초, Meta는 Scale AI의 49% 지분을 143억 달러에 취득하였고, Scale AI의 CEO였던 Alexandr Wang을 MSL의 책임자로 영입했습니다1.
Meta는 지금까지 Llama 시리즈를 MIT 라이선스로 공개하는 오픈 소스 전략을 취해왔습니다. Muse Spark는 이 노선을 변경하여, **클로즈드 소스(Closed Source)**로서 제공됩니다. 공식 발표에서는 "향후 버전의 오픈 소스화를 희망함"이라고 언급하여, 완전한 폐쇄 노선은 아니지만 업계에 미치는 영향은 클 것으로 보입니다2.
Zuckerberg가 내건 비전은 "Personal Superintelligence"입니다. 모든 사람이 자신만의 AI 에이전트를 소유하고, 사고 · 계획 · 커뮤니케이션 · 행동을 대행하게 하는 세상을 목표로 합니다. Muse Spark는 그 Phase 1에 위치합니다.
Artificial Analysis Intelligence Index v4.0(2026년 4월 시점)을 주요 데이터로 정리합니다3.
| 모델 | Intelligence Index | 순위 |
|---|---|---|
| GPT-5.4 | 57 | 1위 타이 |
| ... | Muse Spark | 52 |
종합 스코어는 4위로 완만하지만, 특정 벤치마크에서는 1위를 획득하고 있습니다.
의료 · 헬스케어 분야의 벤치마크인 「HealthBench Hard」에서는, 프론티어 모델 중 1위를 기록했습니다.
| 모델 | HealthBench Hard |
|---|---|
| Muse Spark | 42.8 |
| GPT-5.4 | 40.1 |
| Grok 4.2 | 20.3 |
| Gemini 3.1 Pro | 20.6 |
의료 정보의 정확성 · 안전성이 요구되는 용도에서의 우위성은 명확합니다.
멀티모달 추론 벤치마크(MMMU-Pro)에서는 80.5%를 기록하여, 프론티어 모델 중 2위에 위치합니다. 텍스트 · 이미지 · 음성의 네이티브 대응과 결합하여, 시각 이해 태스크에도 강점이 있습니다.
추상적인 문제 해결 능력을 측정하는 ARC-AGI-2에서는 타 모델과의 차이가 두드러집니다.
| 모델 | ARC-AGI-2 |
|---|---|
| Gemini 3.1 Pro | 76.5 |
| GPT-5.4 | 76.1 |
| Muse Spark | 42.5 |
약 34포인트의 차이가 있으며, 새로운 패턴에 대한 일반화 (Generalization) 능력에서는 현시점에서 열세입니다.
실제 데스크톱 및 업무 태스크 수행 능력을 측정하는 GDPval-AA (ELO 방식)는 다음과 같습니다 (2026년 4월 8일 기준, Artificial Analysis).
| 모델 | GDPval-AA ELO |
|---|---|
| GPT-5.4 | 1,674 |
| Muse Spark | 1,444 |
| Gemini 3.1 Pro Preview | 1,320 |
GPT-5.4와는 230포인트 차이가 나지만, Gemini 3.1 Pro보다는 높은 수준입니다.
코딩 성능의 지표가 되는 Terminal-Bench 2.0에서는 타 모델과의 차이가 현저합니다.
| 모델 | Terminal-Bench 2.0 |
|---|---|
| GPT-5.4 | 75.1 |
| Gemini 3.1 Pro | 68.5 |
| Muse Spark | 59.0 |
코딩 어시스턴트나 코드 리뷰 용도로는 현시점에서 Claude Opus 4.6 또는 GPT-5.4를 선택하는 것이 더 실용적입니다.
Artificial Analysis의 평가에 따르면, Muse Spark는 모든 평가를 통틀어 58M의 출력 토큰으로 완료했습니다. 이는 타 모델과 비교해 현저히 효율적입니다.
| 모델 | 평가 소비 토큰 |
|---|---|
| Claude Opus 4.6 | 157M |
| Muse Spark | 58M |
API 비용이 발표될 때, 이러한 효율성은 가격 경쟁력으로 이어질 가능성이 있습니다.
Muse Spark의 독자적인 기능인 "Contemplating mode"는 멀티 에이전트 병렬 추론 (Multi-agent Parallel Reasoning)을 실행하는 모드입니다. 여러 개의 사고 프로세스를 병렬로 구동하여 최종 답변을 통합합니다.
매우 고난도의 지식 및 추론 문제를 다루는 HLE에서, Contemplating mode를 활성화한 Muse Spark는 GPT-5.4와 Gemini 3.1 Pro를 스코어 면에서 앞서고 있습니다4.
Contemplating mode는 추론 비용 (레이턴시 및 토큰)이 증가합니다. 공식 문서에 따르면 다음과 같은 용도가 상정되어 있습니다.
- 복잡한 의료 진단 및 연구 문헌의 종합 분석
- 다단계 추론을 요하는 수학 및 과학 문제
- 여러 관점에서의 검토가 필요한 리서치 태스크
일상적인 코딩 보조나 단문 생성에서는 일반 모드 사용이 권장됩니다.
Meta AI 앱 (iOS, Android, Web)을 통해 현재 무료로 Muse Spark에 접속할 수 있습니다. Facebook, Instagram, WhatsApp, Messenger와의 통합도 진행 중입니다.
2026년 4월 현재, 선정된 파트너를 대상으로 한 한정 프리뷰 API로 제공 중입니다. 일반 사용자 대상 API 공개 시기 및 요금은 Meta 공식 발표 전입니다.
Artificial Analysis에 따르면 API 제공업체에 의한 벤치마크가 없으므로, 외부로부터의 독립적인 측정은 평가 시점에 이루어지지 않았습니다3.
- 공개 API 제공 시기: 미정 (Meta 공식 미발표)
- 오픈 소스화: "향후 버전에 희망함"이라고 표명
- 컨텍스트 윈도우 (Context Window): Meta는 공식 발표하지 않음 (공식 확인 대기 중)
| 용도 | 추천 모델 | 이유 |
|---|---|---|
| 의료 및 헬스케어 정보 | Muse Spark | HealthBench Hard 1위 (42.8) |
| 고난도 추론 (HLE 수준) | Muse Spark (Contemplating mode) | HLE 스코어에서 GPT-5.4 및 Gemini를 상회 |
| 멀티모달 시각 태스크 | Gemini 3.1 Pro / Muse Spark | 양쪽 모두 높은 MMMA-Pro 보유 |
| 코딩 및 PR 자동화 | GPT-5.4 / Claude Opus 4.6 | Terminal-Bench 2.0에서 16포인트 차이 |
| 에이전트형 업무 태스크 | GPT-5.4 / Claude Opus 4.6 | GDPval-AA에서 230포인트 차이 |
| ... |
Muse Spark는 "Meta가 AI 경쟁에 본격적으로 복귀했다"는 것을 보여주는 중요한 릴리스입니다.
-
HealthBench Hard에서 세계 1위: 의료·헬스케어 용도에서의 신뢰성 -
Contemplating mode에서 HLE 1위: 고난도 추론에서의 다단계 추론 (Multi-step reasoning) 능력 -
높은 토큰 효율성: API 공개 후 비용 이점에 대한 기대 -
멀티모달 (Multimodal): 텍스트·이미지·음성의 네이티브 통합 -
코딩·에이전트 (Agent) 태스크에서는 선행 모델에 미치지 못함
-
ARC-AGI-2 (추상 추론)에서 34포인트 이상의 차이가 있음
-
공개 API는 제공되지 않음 (한정된 파트너 대상 프리뷰만 제공)
API의 일반 공개가 실현되면, 토큰 효율의 높음으로 인해 비용 경쟁력이 생길 가능성이 있습니다. 또한, MSL이 향후 어떤 모델 (Muse Spark 2 등)을 출시할지가 주목 포인트입니다. 오픈 소스화 동향도 개발자들에게 중요한 시그널이 될 것입니다.
-
Introducing Muse Spark: Scaling Towards Personal Superintelligence - Meta AI
-
Muse Spark: Meta is back in the AI race - Artificial Analysis
-
Meta debuts the Muse Spark model - TechCrunch
-
Meta debuts first major AI model since $14 billion deal - CNBC
-
So long, Llama: Meta unveils Muse Spark AI with Contemplating mode - 9to5Mac
Meta debuts first major AI model since $14 billion deal to bring in Alexandr Wang - CNBC (2026-04-08) ↩
Meta debuts the Muse Spark model in a 'ground-up overhaul' of its AI - TechCrunch (2026-04-08) ↩
Muse Spark: Meta is back in the AI race - Artificial Analysis (2026-04-08) ↩ ↩
2 -
So long, Llama: Meta unveils Muse Spark AI with new Contemplating mode - 9to5Mac (2026-04-08) ↩
AI 자동 생성 콘텐츠
본 콘텐츠는 Qiita AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기