Meta Muse Spark 입문 — HealthBench 1위 · Contemplating mode의 전모 가이드 - Insights | Molayo

2026년 4월 8일, Meta는 "Muse Spark"를 발표했습니다. Meta Superintelligence Labs(MSL)가 제작한 첫 번째 모델이며, Llama 계열의 오픈 소스(Open Source) 노선에서 벗어난 **첫 번째 프로프라이어터리 모델(Proprietary Model)**입니다.

이 기사에서는 공식 발표와 독립 평가 기관(Artificial Analysis)의 데이터를 바탕으로, Muse Spark의 벤치마크(Benchmark) · 특징적인 「Contemplating mode」 · 현재의 액세스 방법 · 타 모델과의 활용 구분법을 해설합니다.

Meta Muse Spark의 배경과 전략적 의미
주요 벤치마크에서의 강점과 약점
Contemplating mode (멀티 에이전트 병렬 추론)의 메커니즘
현재의 액세스 방법과 API 제공 현황
GPT-5.4 · Claude Opus 4.6 · Gemini 3.1 Pro와의 활용 지침
최신 LLM 트렌드를 추적하고 싶은 엔지니어
LLM 선정 · 모델 비교에 종사하는 개발자
Meta AI의 전략 변화에 관심이 있는 분
Muse Spark는 Meta가 2026년 4월 8일에 출시한 첫 번째 프로프라이어터리 LLM
Alexandr Wang(전 Scale AI CEO)이 이끄는 Meta Superintelligence Labs(MSL)가 개발
**HealthBench Hard에서 프론티어 모델 중 1위(42.8)**를 달성
종합 스코어는 Intelligence Index 52 (4위 / GPT-5.4: 57, Claude Opus 4.6: 53)
코딩 · 에이전트 태스크는 현재 타 모델에 뒤처짐
「Contemplating mode」(멀티 에이전트 병렬 추론)로 HLE 스코어를 리드
현재는 한정 프리뷰 API + Meta AI 앱을 통해 무료 액세스 가능

Muse Spark는 Meta의 신규 조직인 "Meta Superintelligence Labs(MSL)"가 개발한 첫 번째 모델입니다. MSL의 설립은 2025년 후반으로 거슬러 올라갑니다. Llama 4가 기대에 미치지 못하는 결과로 끝나면서, Mark Zuckerberg가 AI 부문을 근본적으로 재편한 것이 계기입니다.

2026년 초, Meta는 Scale AI의 49% 지분을 143억 달러에 취득하였고, Scale AI의 CEO였던 Alexandr Wang을 MSL의 책임자로 영입했습니다1.

Meta는 지금까지 Llama 시리즈를 MIT 라이선스로 공개하는 오픈 소스 전략을 취해왔습니다. Muse Spark는 이 노선을 변경하여, **클로즈드 소스(Closed Source)**로서 제공됩니다. 공식 발표에서는 "향후 버전의 오픈 소스화를 희망함"이라고 언급하여, 완전한 폐쇄 노선은 아니지만 업계에 미치는 영향은 클 것으로 보입니다2.

Zuckerberg가 내건 비전은 "Personal Superintelligence"입니다. 모든 사람이 자신만의 AI 에이전트를 소유하고, 사고 · 계획 · 커뮤니케이션 · 행동을 대행하게 하는 세상을 목표로 합니다. Muse Spark는 그 Phase 1에 위치합니다.

Artificial Analysis Intelligence Index v4.0(2026년 4월 시점)을 주요 데이터로 정리합니다3.

모델	Intelligence Index	순위
GPT-5.4	57	1위 타이
...	Muse Spark	52

종합 스코어는 4위로 완만하지만, 특정 벤치마크에서는 1위를 획득하고 있습니다.

의료 · 헬스케어 분야의 벤치마크인 「HealthBench Hard」에서는, 프론티어 모델 중 1위를 기록했습니다.

모델	HealthBench Hard
Muse Spark	42.8
GPT-5.4	40.1
Grok 4.2	20.3
Gemini 3.1 Pro	20.6

의료 정보의 정확성 · 안전성이 요구되는 용도에서의 우위성은 명확합니다.

멀티모달 추론 벤치마크(MMMU-Pro)에서는 80.5%를 기록하여, 프론티어 모델 중 2위에 위치합니다. 텍스트 · 이미지 · 음성의 네이티브 대응과 결합하여, 시각 이해 태스크에도 강점이 있습니다.

추상적인 문제 해결 능력을 측정하는 ARC-AGI-2에서는 타 모델과의 차이가 두드러집니다.

모델	ARC-AGI-2
Gemini 3.1 Pro	76.5
GPT-5.4	76.1
Muse Spark	42.5

약 34포인트의 차이가 있으며, 새로운 패턴에 대한 일반화 (Generalization) 능력에서는 현시점에서 열세입니다.

실제 데스크톱 및 업무 태스크 수행 능력을 측정하는 GDPval-AA (ELO 방식)는 다음과 같습니다 (2026년 4월 8일 기준, Artificial Analysis).

모델	GDPval-AA ELO
GPT-5.4	1,674
Muse Spark	1,444
Gemini 3.1 Pro Preview	1,320

GPT-5.4와는 230포인트 차이가 나지만, Gemini 3.1 Pro보다는 높은 수준입니다.

코딩 성능의 지표가 되는 Terminal-Bench 2.0에서는 타 모델과의 차이가 현저합니다.

모델	Terminal-Bench 2.0
GPT-5.4	75.1
Gemini 3.1 Pro	68.5
Muse Spark	59.0

코딩 어시스턴트나 코드 리뷰 용도로는 현시점에서 Claude Opus 4.6 또는 GPT-5.4를 선택하는 것이 더 실용적입니다.

Artificial Analysis의 평가에 따르면, Muse Spark는 모든 평가를 통틀어 58M의 출력 토큰으로 완료했습니다. 이는 타 모델과 비교해 현저히 효율적입니다.

모델	평가 소비 토큰
Claude Opus 4.6	157M
Muse Spark	58M

API 비용이 발표될 때, 이러한 효율성은 가격 경쟁력으로 이어질 가능성이 있습니다.

Muse Spark의 독자적인 기능인 "Contemplating mode"는 멀티 에이전트 병렬 추론 (Multi-agent Parallel Reasoning)을 실행하는 모드입니다. 여러 개의 사고 프로세스를 병렬로 구동하여 최종 답변을 통합합니다.

매우 고난도의 지식 및 추론 문제를 다루는 HLE에서, Contemplating mode를 활성화한 Muse Spark는 GPT-5.4와 Gemini 3.1 Pro를 스코어 면에서 앞서고 있습니다4.

Contemplating mode는 추론 비용 (레이턴시 및 토큰)이 증가합니다. 공식 문서에 따르면 다음과 같은 용도가 상정되어 있습니다.

복잡한 의료 진단 및 연구 문헌의 종합 분석
다단계 추론을 요하는 수학 및 과학 문제
여러 관점에서의 검토가 필요한 리서치 태스크

일상적인 코딩 보조나 단문 생성에서는 일반 모드 사용이 권장됩니다.

Meta AI 앱 (iOS, Android, Web)을 통해 현재 무료로 Muse Spark에 접속할 수 있습니다. Facebook, Instagram, WhatsApp, Messenger와의 통합도 진행 중입니다.

2026년 4월 현재, 선정된 파트너를 대상으로 한 한정 프리뷰 API로 제공 중입니다. 일반 사용자 대상 API 공개 시기 및 요금은 Meta 공식 발표 전입니다.

Artificial Analysis에 따르면 API 제공업체에 의한 벤치마크가 없으므로, 외부로부터의 독립적인 측정은 평가 시점에 이루어지지 않았습니다3.

공개 API 제공 시기: 미정 (Meta 공식 미발표)
오픈 소스화: "향후 버전에 희망함"이라고 표명
컨텍스트 윈도우 (Context Window): Meta는 공식 발표하지 않음 (공식 확인 대기 중)

용도	추천 모델	이유
의료 및 헬스케어 정보	Muse Spark	HealthBench Hard 1위 (42.8)
고난도 추론 (HLE 수준)	Muse Spark (Contemplating mode)	HLE 스코어에서 GPT-5.4 및 Gemini를 상회
멀티모달 시각 태스크	Gemini 3.1 Pro / Muse Spark	양쪽 모두 높은 MMMA-Pro 보유
코딩 및 PR 자동화	GPT-5.4 / Claude Opus 4.6	Terminal-Bench 2.0에서 16포인트 차이
에이전트형 업무 태스크	GPT-5.4 / Claude Opus 4.6	GDPval-AA에서 230포인트 차이
...

Muse Spark는 "Meta가 AI 경쟁에 본격적으로 복귀했다"는 것을 보여주는 중요한 릴리스입니다.

HealthBench Hard에서 세계 1위: 의료·헬스케어 용도에서의 신뢰성 -
Contemplating mode에서 HLE 1위: 고난도 추론에서의 다단계 추론 (Multi-step reasoning) 능력 -
높은 토큰 효율성: API 공개 후 비용 이점에 대한 기대 -
멀티모달 (Multimodal): 텍스트·이미지·음성의 네이티브 통합
코딩·에이전트 (Agent) 태스크에서는 선행 모델에 미치지 못함
ARC-AGI-2 (추상 추론)에서 34포인트 이상의 차이가 있음
공개 API는 제공되지 않음 (한정된 파트너 대상 프리뷰만 제공)

API의 일반 공개가 실현되면, 토큰 효율의 높음으로 인해 비용 경쟁력이 생길 가능성이 있습니다. 또한, MSL이 향후 어떤 모델 (Muse Spark 2 등)을 출시할지가 주목 포인트입니다. 오픈 소스화 동향도 개발자들에게 중요한 시그널이 될 것입니다.

Introducing Muse Spark: Scaling Towards Personal Superintelligence - Meta AI
Muse Spark: Meta is back in the AI race - Artificial Analysis
Meta debuts the Muse Spark model - TechCrunch
Meta debuts first major AI model since $14 billion deal - CNBC
So long, Llama: Meta unveils Muse Spark AI with Contemplating mode - 9to5Mac

Meta debuts first major AI model since $14 billion deal to bring in Alexandr Wang - CNBC (2026-04-08) ↩

Meta debuts the Muse Spark model in a 'ground-up overhaul' of its AI - TechCrunch (2026-04-08) ↩

Muse Spark: Meta is back in the AI race - Artificial Analysis (2026-04-08) ↩ ↩

2 -
So long, Llama: Meta unveils Muse Spark AI with new Contemplating mode - 9to5Mac (2026-04-08) ↩

Meta Muse Spark 입문 — HealthBench 1위 · Contemplating mode의 전모 가이드

요약

핵심 포인트

댓글