본문으로 건너뛰기

© 2026 Molayo

Qiita헤드라인2026. 06. 15. 14:44

Meta Muse Spark 입문 — HealthBench 1위 · Contemplating mode의 전모 가이드

요약

Meta가 MSL을 통해 발표한 첫 번째 프로프라이어터리 모델 Muse Spark를 소개합니다. HealthBench Hard에서 1위를 기록했으며, 멀티 에이전트 병렬 추론 방식인 'Contemplating mode'가 핵심 특징입니다.

핵심 포인트

  • Meta의 첫 폐쇄형(Proprietary) 모델 출시
  • HealthBench Hard 벤치마크에서 프론티어 모델 중 1위 달성
  • Contemplating mode를 통한 멀티 에이전트 병렬 추론 메커니즘 도입
  • Llama의 오픈 소스 전략에서 변화를 시도하는 전략적 모델

2026년 4월 8일, Meta는 "Muse Spark"를 발표했습니다. Meta Superintelligence Labs(MSL)가 제작한 첫 번째 모델이며, Llama 계열의 오픈 소스(Open Source) 노선에서 벗어난 **첫 번째 프로프라이어터리 모델(Proprietary Model)**입니다.

이 기사에서는 공식 발표와 독립 평가 기관(Artificial Analysis)의 데이터를 바탕으로, Muse Spark의 벤치마크(Benchmark) · 특징적인 「Contemplating mode」 · 현재의 액세스 방법 · 타 모델과의 활용 구분법을 해설합니다.

  • Meta Muse Spark의 배경과 전략적 의미

  • 주요 벤치마크에서의 강점과 약점

  • Contemplating mode (멀티 에이전트 병렬 추론)의 메커니즘

  • 현재의 액세스 방법과 API 제공 현황

  • GPT-5.4 · Claude Opus 4.6 · Gemini 3.1 Pro와의 활용 지침

  • 최신 LLM 트렌드를 추적하고 싶은 엔지니어

  • LLM 선정 · 모델 비교에 종사하는 개발자

  • Meta AI의 전략 변화에 관심이 있는 분

  • Muse Spark는 Meta가 2026년 4월 8일에 출시한 첫 번째 프로프라이어터리 LLM

  • Alexandr Wang(전 Scale AI CEO)이 이끄는 Meta Superintelligence Labs(MSL)가 개발

  • **HealthBench Hard에서 프론티어 모델 중 1위(42.8)**를 달성

  • 종합 스코어는 Intelligence Index 52 (4위 / GPT-5.4: 57, Claude Opus 4.6: 53)

  • 코딩 · 에이전트 태스크는 현재 타 모델에 뒤처짐

  • 「Contemplating mode」(멀티 에이전트 병렬 추론)로 HLE 스코어를 리드

  • 현재는 한정 프리뷰 API + Meta AI 앱을 통해 무료 액세스 가능

Muse Spark는 Meta의 신규 조직인 "Meta Superintelligence Labs(MSL)"가 개발한 첫 번째 모델입니다. MSL의 설립은 2025년 후반으로 거슬러 올라갑니다. Llama 4가 기대에 미치지 못하는 결과로 끝나면서, Mark Zuckerberg가 AI 부문을 근본적으로 재편한 것이 계기입니다.

2026년 초, Meta는 Scale AI의 49% 지분을 143억 달러에 취득하였고, Scale AI의 CEO였던 Alexandr Wang을 MSL의 책임자로 영입했습니다1.

Meta는 지금까지 Llama 시리즈를 MIT 라이선스로 공개하는 오픈 소스 전략을 취해왔습니다. Muse Spark는 이 노선을 변경하여, **클로즈드 소스(Closed Source)**로서 제공됩니다. 공식 발표에서는 "향후 버전의 오픈 소스화를 희망함"이라고 언급하여, 완전한 폐쇄 노선은 아니지만 업계에 미치는 영향은 클 것으로 보입니다2.

Zuckerberg가 내건 비전은 "Personal Superintelligence"입니다. 모든 사람이 자신만의 AI 에이전트를 소유하고, 사고 · 계획 · 커뮤니케이션 · 행동을 대행하게 하는 세상을 목표로 합니다. Muse Spark는 그 Phase 1에 위치합니다.

Artificial Analysis Intelligence Index v4.0(2026년 4월 시점)을 주요 데이터로 정리합니다3.

모델Intelligence Index순위
GPT-5.4571위 타이
...Muse Spark52

종합 스코어는 4위로 완만하지만, 특정 벤치마크에서는 1위를 획득하고 있습니다.

의료 · 헬스케어 분야의 벤치마크인 「HealthBench Hard」에서는, 프론티어 모델 중 1위를 기록했습니다.

모델HealthBench Hard
Muse Spark42.8
GPT-5.440.1
Grok 4.220.3
Gemini 3.1 Pro20.6

의료 정보의 정확성 · 안전성이 요구되는 용도에서의 우위성은 명확합니다.

멀티모달 추론 벤치마크(MMMU-Pro)에서는 80.5%를 기록하여, 프론티어 모델 중 2위에 위치합니다. 텍스트 · 이미지 · 음성의 네이티브 대응과 결합하여, 시각 이해 태스크에도 강점이 있습니다.

추상적인 문제 해결 능력을 측정하는 ARC-AGI-2에서는 타 모델과의 차이가 두드러집니다.

모델ARC-AGI-2
Gemini 3.1 Pro76.5
GPT-5.476.1
Muse Spark42.5

약 34포인트의 차이가 있으며, 새로운 패턴에 대한 일반화 (Generalization) 능력에서는 현시점에서 열세입니다.

실제 데스크톱 및 업무 태스크 수행 능력을 측정하는 GDPval-AA (ELO 방식)는 다음과 같습니다 (2026년 4월 8일 기준, Artificial Analysis).

모델GDPval-AA ELO
GPT-5.41,674
Muse Spark1,444
Gemini 3.1 Pro Preview1,320

GPT-5.4와는 230포인트 차이가 나지만, Gemini 3.1 Pro보다는 높은 수준입니다.

코딩 성능의 지표가 되는 Terminal-Bench 2.0에서는 타 모델과의 차이가 현저합니다.

모델Terminal-Bench 2.0
GPT-5.475.1
Gemini 3.1 Pro68.5
Muse Spark59.0

코딩 어시스턴트나 코드 리뷰 용도로는 현시점에서 Claude Opus 4.6 또는 GPT-5.4를 선택하는 것이 더 실용적입니다.

Artificial Analysis의 평가에 따르면, Muse Spark는 모든 평가를 통틀어 58M의 출력 토큰으로 완료했습니다. 이는 타 모델과 비교해 현저히 효율적입니다.

모델평가 소비 토큰
Claude Opus 4.6157M
Muse Spark58M

API 비용이 발표될 때, 이러한 효율성은 가격 경쟁력으로 이어질 가능성이 있습니다.

Muse Spark의 독자적인 기능인 "Contemplating mode"는 멀티 에이전트 병렬 추론 (Multi-agent Parallel Reasoning)을 실행하는 모드입니다. 여러 개의 사고 프로세스를 병렬로 구동하여 최종 답변을 통합합니다.

매우 고난도의 지식 및 추론 문제를 다루는 HLE에서, Contemplating mode를 활성화한 Muse Spark는 GPT-5.4와 Gemini 3.1 Pro를 스코어 면에서 앞서고 있습니다4.

Contemplating mode는 추론 비용 (레이턴시 및 토큰)이 증가합니다. 공식 문서에 따르면 다음과 같은 용도가 상정되어 있습니다.

  • 복잡한 의료 진단 및 연구 문헌의 종합 분석
  • 다단계 추론을 요하는 수학 및 과학 문제
  • 여러 관점에서의 검토가 필요한 리서치 태스크

일상적인 코딩 보조나 단문 생성에서는 일반 모드 사용이 권장됩니다.

Meta AI 앱 (iOS, Android, Web)을 통해 현재 무료로 Muse Spark에 접속할 수 있습니다. Facebook, Instagram, WhatsApp, Messenger와의 통합도 진행 중입니다.

2026년 4월 현재, 선정된 파트너를 대상으로 한 한정 프리뷰 API로 제공 중입니다. 일반 사용자 대상 API 공개 시기 및 요금은 Meta 공식 발표 전입니다.

Artificial Analysis에 따르면 API 제공업체에 의한 벤치마크가 없으므로, 외부로부터의 독립적인 측정은 평가 시점에 이루어지지 않았습니다3.

  • 공개 API 제공 시기: 미정 (Meta 공식 미발표)
  • 오픈 소스화: "향후 버전에 희망함"이라고 표명
  • 컨텍스트 윈도우 (Context Window): Meta는 공식 발표하지 않음 (공식 확인 대기 중)
용도추천 모델이유
의료 및 헬스케어 정보Muse SparkHealthBench Hard 1위 (42.8)
고난도 추론 (HLE 수준)Muse Spark (Contemplating mode)HLE 스코어에서 GPT-5.4 및 Gemini를 상회
멀티모달 시각 태스크Gemini 3.1 Pro / Muse Spark양쪽 모두 높은 MMMA-Pro 보유
코딩 및 PR 자동화GPT-5.4 / Claude Opus 4.6Terminal-Bench 2.0에서 16포인트 차이
에이전트형 업무 태스크GPT-5.4 / Claude Opus 4.6GDPval-AA에서 230포인트 차이
...

Muse Spark는 "Meta가 AI 경쟁에 본격적으로 복귀했다"는 것을 보여주는 중요한 릴리스입니다.

  • HealthBench Hard에서 세계 1위: 의료·헬스케어 용도에서의 신뢰성 -
    Contemplating mode에서 HLE 1위: 고난도 추론에서의 다단계 추론 (Multi-step reasoning) 능력 -
    높은 토큰 효율성: API 공개 후 비용 이점에 대한 기대 -
    멀티모달 (Multimodal): 텍스트·이미지·음성의 네이티브 통합

  • 코딩·에이전트 (Agent) 태스크에서는 선행 모델에 미치지 못함

  • ARC-AGI-2 (추상 추론)에서 34포인트 이상의 차이가 있음

  • 공개 API는 제공되지 않음 (한정된 파트너 대상 프리뷰만 제공)

API의 일반 공개가 실현되면, 토큰 효율의 높음으로 인해 비용 경쟁력이 생길 가능성이 있습니다. 또한, MSL이 향후 어떤 모델 (Muse Spark 2 등)을 출시할지가 주목 포인트입니다. 오픈 소스화 동향도 개발자들에게 중요한 시그널이 될 것입니다.

  • Introducing Muse Spark: Scaling Towards Personal Superintelligence - Meta AI

  • Muse Spark: Meta is back in the AI race - Artificial Analysis

  • Meta debuts the Muse Spark model - TechCrunch

  • Meta debuts first major AI model since $14 billion deal - CNBC

  • So long, Llama: Meta unveils Muse Spark AI with Contemplating mode - 9to5Mac

Meta debuts first major AI model since $14 billion deal to bring in Alexandr Wang - CNBC (2026-04-08) ↩

Meta debuts the Muse Spark model in a 'ground-up overhaul' of its AI - TechCrunch (2026-04-08) ↩

Muse Spark: Meta is back in the AI race - Artificial Analysis (2026-04-08) ↩ ↩

2 -
So long, Llama: Meta unveils Muse Spark AI with new Contemplating mode - 9to5Mac (2026-04-08) ↩

AI 자동 생성 콘텐츠

본 콘텐츠는 Qiita AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0