SAKANA Fugu / Fugu Ultra란? 다른 LLM을 묶어 지휘하는 「오케스트레이션 모델」

Sakana AI가 2026년 6월 22일에 공개한 Fugu(후구)와 Fugu Ultra는 한마디로 말해 「다른 LLM을 호출하여 지휘하는 LLM」입니다. Fugu 스스로가 하나의 언어 모델(Language Model)이면서도, 내부에 있는 여러 프론티어 모델(Frontier Model, 에이전트 풀)에게 업무를 배분하고, 대화하게 하며, 결과를 통합합니다. 이용하는 입장에서는 그 복잡함을 전혀 느낄 수 없습니다. OpenAI 호환의 단일 API를 호출하기만 하면, 뒷단에서는 멀티 에이전트(Multi-agent)가 움직이고 있는 구조입니다.

캐치프레이즈는 「One Model to Command Them All(모든 것을 통제하는 하나의 모델)」입니다. 반지의 제왕을 패러디한 이 문장은 Fugu의 성격을 잘 나타냅니다. 하나의 거대 모델로 스케일을 쫓는 것이 아니라, 여러 모델을 협조시킨 에코시스템(Ecosystem)으로서 강점을 내는 발상의 제품입니다.

이 기사에서는 Fugu와 Fugu Ultra가 어떤 모델인지, 어떤 아키텍처(Architecture)로 작동하는지, 그리고 본론인 다른 LLM과의 벤치마크(Benchmark) 비교를 정리해 나갑니다. 아울러, 공개된 스코어가 벤더(Vendor)의 공표치라는 점과 출시 직후 나온 회의적인 목소리에 대해서도 공정하게 다루겠습니다.

이 기사에서 다루는 내용은 다음과 같습니다.

Fugu의 정체 (모델을 지휘하는 모델이라는 발상)
Fugu와 Fugu Ultra의 차이
아키텍처 (TRINITY와 Conductor)
다른 LLM과의 벤치마크 비교 (전체 스코어 표 포함)
벤치마크를 읽는 법과 독립 검증에서의 평가
제공 형태와 사용법, 그리고 개발의 목적

💡 본 기사의 수치 및 사양은 2026년 6월 시점의 것이며, Fugu는 API 제공 방식이자 진화 중이므로 향후 변경될 가능성이 있습니다.

먼저, Fugu가 일반적인 LLM과 무엇이 다른지 짚어보겠습니다. 일반적인 LLM은 하나의 모델이 입력을 받아 출력을 반환합니다. Fugu는 여기에 「지휘자」의 역할이 들어갑니다. Fugu 스스로는 에이전트 풀에 있는 여러 LLM(자기 자신을 재귀적으로 호출하기도 함)에 대해, 어떤 모델에 무엇을 맡길지, 어떻게 대화하게 할지, 결과를 어떻게 통합할지를 결정합니다.

다음 도표는 이용자 입장에서 본 모습과 Fugu 내부에서 일어나고 있는 일의 대비입니다.

이 도표의 포인트는 두 가지입니다. 첫 번째는 이용자가 「하나의 요청을 보내고 하나의 답변을 받는」 것만으로 내부의 멀티 에이전트 구성을 의식할 필요가 없다는 점입니다. 공식적인 표현을 빌리자면 「다중 에이전트 시스템의 복잡성이 사용자의 코드에 미치는 일은 전혀 없습니다」. 두 번째는 풀(Pool)의 내용물을 교체 가능(Swappable)하다는 점입니다. 특정 벤더의 모델로 고정되지 않고, 전 세계의 모델을 조합해서 사용할 수 있습니다. 이는 나중에 다룰 「AI 주권」이라는 목표로 이어집니다.

참고로, 이러한 협조 방식은 인간이 규칙으로 미리 정해둔 것이 아닙니다. Fugu는 「어떻게 협조할 것인가」 그 자체를 학습하고 있습니다. 고정된 워크플로우(Workflow)가 아니라, 태스크(Task)에 따라 위임 대상이나 대화 방식을 선택하도록 훈련되어 있다는 점이 새로운 부분입니다.

Fugu에는 두 가지 변형(Variant)이 있습니다. 속도 중심의 Fugu와 품질 중심의 Fugu Ultra입니다. 용도에 따라 나누어 쓰도록 설계되어 있습니다.

Fugu	Fugu Ultra
목표	높은 성능과 낮은 레이턴시(Latency)의 균형
...

거칠게 말하자면, Fugu는 「빠르고 똑똑한 일상용」, Fugu Ultra는 「시간이 걸리더라도 최고 품질을 내는 결전용」입니다. 태스크가 복잡하게 얽혀 있고 장시간이 소요되며, 한 번의 모델 호출로는 풀기 어려운 것일수록 Fugu Ultra의 멀티 에이전트 능력이 효과를 발휘한다는 정리입니다.

Fugu와 Fugu Ultra는 Sakana AI가 ICLR 2026에서 발표한 두 가지 연구를 기반으로 합니다. 「Trinity: An Evolved LLM Coordinator」와 「Learning to Orchestrate Agents in Natural Language with the Conductor」입니다. 변형 모델마다 토대가 되는 연구가 다릅니다.

다음 도표는 두 가지 변형 모델이 채택하고 있는 메커니즘의 차이를 보여줍니다.

Fugu (TRINITY 계열)는 은닉 상태(hidden state)로부터 "어느 워커(worker)에게 맡기는 것이 좋을지"를 스코어링하는 경량 선택 헤드(selection head)를 가지고 있어, 워커를 선택하는 데 특화되어 있습니다. 역할 할당까지는 수행하지 않고 선택을 단순하고 빠르게 만드는 것이 특징입니다.

반면 Fugu Ultra (Conductor 계열)는 더 깊이 있게 파고듭니다. 자연어로 "이 부분의 태스크는 누구에게, 어떤 정보에 접근하게 하여 맡길 것인가"라는 워크플로(workflow) 그 자체를 작성합니다. 트리 구조, 순차적, 병렬적 토폴로지(topology)를 조합하고, 워크플로 내에서 에이전트를 분리하여 (오케스트레이션의 붕괴를 방지하기 위해), 영구적인 공유 메모리를 통해 멀티 턴(multi-turn) 대화에도 대응합니다. 난제에 강한 이유는 바로 이러한 치밀한 준비 과정이 있기 때문입니다.

학습 방법도 다릅니다. Fugu는 지도 미세 조정 (SFT, Supervised Fine-Tuning)을 통해 워커의 보상 분포에 접근한 뒤, 진화 전략 (sep-CMA-ES)으로 엔드 투 엔드 (end-to-end) 성과를 직접 최대화합니다. Fugu Ultra는 GRPO (Grouped Relative Policy Optimization)를 사용하여 포맷과 정확성이라는 2단계 보상을 통해 학습합니다. 이 부분은 "협력하는 방법을 학습을 통해 습득한다"라는 사상이 구체적인 방법론으로 나타난 지점입니다.

여기가 본론입니다. 기술 보고서 (arXiv:2606.21228)에는 Fugu / Fugu Ultra와 주요 프론티어 모델 (frontier models)을 비교한 스코어가 실려 있습니다. 비교 대상은 Claude Opus 4.8, Gemini 3.1 Pro, GPT-5.5입니다. 모든 데이터를 표로 정리합니다.

벤치마크	Fugu Ultra	Fugu	Claude Opus 4.8	Gemini 3.1 Pro	GPT-5.5
SWE-Bench Pro	73.7	59.0	69.2	54.2	58.6
Terminal Bench 2.1	82.1	80.2	74.6	70.3	78.2
LiveCodeBench v6	92.0	90.3	90.3	88.9	90.7
LiveCodeBench Pro	90.8	87.8	84.8	82.9	88.4
Humanity's Last Exam	50.0	47.2	49.8	44.4	41.4
CharXiv Reasoning	86.6	85.1	84.2	83.3	84.1
GPQA-Diamond	95.5	95.5	92.0	94.3	93.6
SciCode	58.7	60.1	53.5	58.9	56.1
τ³ Banking	20.6	21.7	20.6	8.4	20.6
Long Context Reasoning	73.3	74.7	67.7	72.7	74.3
MRCRv2	93.6	86.6	87.9	84.9	94.8

(굵은 글씨는 각 행의 최고치입니다. 스코어는 모두 Sakana AI 공칭값이며, 비교 대상은 각 사의 공칭값입니다.)

표를 해석하면 경향은 명확합니다.

코딩 계열 (SWE-Bench Pro / Terminal Bench / LiveCodeBench)에서 Fugu Ultra가 나란히 톱을 차지했습니다. 특히 SWE-Bench Pro는 73.7로, Opus 4.8의 69.2, GPT-5.5의 58.6, Gemini 3.1 Pro의 54.2를 따돌렸습니다.
과학·추론 계열 (GPQA-Diamond 95.5, CharXiv Reasoning 86.6, Humanity's Last Exam 50.0)에서도 선두입니다.
유일하게 확실히 뒤처진 것이 MRCRv2로, 여기서는 GPT-5.5의 94.8이 최상위이며 Fugu Ultra는 93.6이었습니다.
SciCode, τ³ Banking, Long Context Reasoning에서는 Ultra보다 "순수 Fugu"가 더 높은, 역전 현상도 일어나고 있습니다. 항상 Ultra가 최강인 것은 아니라는 점이 흥미로운 부분입니다.

공식적인 표현으로는 "11개 중 10개에서 톱 스코어"를 내세우고 있습니다. 지휘 역할을 하는 모델이, 묶여 있는 개별 모델(Opus 4.8이나 GPT-5.5 등)을 능가한다는 주장입니다. 또한 공식 블로그에서는 Anthropic의 Fable 5나 Mythos Preview와 같은 최첨단 모델과도 "비견된다"고 언급되어 있으나, 이들은 비공개 모델이기 때문에 위의 수치 비교표에서는 제외되었습니다.

참고로, 간판 격인 SWE-Bench Pro를 정렬해 보면 그 차이를 쉽게 체감할 수 있습니다.

여기서 한 번 짚고 넘어가야 할 점이 있습니다. 위의 스코어는 매력적이지만, 모두 Sakana AI 스스로가 보고한 수치이며, 비교 대상의 스코어 또한 각 사의 공칭 값을 인용한 것입니다. 동일한 환경에서 나란히 재실행한 결과가 아닙니다. 이 전제는 기술 리포트 자체에서도 limitation(한계점)으로 명시되어 있습니다.

실제로 출시 직후의 반응이 무조건적인 찬사 일색은 아니었습니다. 독립 매체의 관찰에 따르면, 커뮤니티의 초기 반응은 오히려 회의적인 편이었으며, "이것은 모델인가, 아니면 영리한 라우터(Router) 혹은 래퍼(Wrapper)에 불과한 것인가"라는 의문이 반복해서 제기되었다고 합니다. 출시 후 24시간 이내에는 독립적인 테스터로부터 벤치마크의 주장과 실제 사용 시의 체감 사이에 괴리가 있다는 보고도 나왔습니다.

기술 리포트에 적혀 있는 개별 주의사항도 솔직하여 참고할 만합니다.

항목	리포트가 인정하는 전제
베이스라인	각 사의 공칭 스코어 사용 (검증 불가능할 가능성 있음)
...

즉, 벤치마크 표는 "Fugu의 설계가 의도한 대로 효과를 발휘하고 있다"는 든든한 자료이기는 하지만, 제삼자가 동일한 조건에서 재현한 것이 아니라는 거리감을 두고 받아들이는 것이 건전합니다. 특히 오케스트레이션(Orchestration)형은 여러 모델을 호출하는 만큼 레이턴시(Latency)나 비용이 늘어나기 쉬운데, 그 부분의 수치가 공개되지 않은 점은 향후 검증 포인트로 남아 있습니다.

그럼에도 불구하고, Beta 기간(약 500명의 테스터) 동안 구체적인 에피소드도 나오고 있습니다. 어떤 코드 리뷰 용도에서는 다른 도구가 3건 정도의 문제만 지적한 반면, Fugu는 20건 이상을 찾아냈다는 보고가 있습니다. 어렵고 길어서 단 한 번의 모델 호출로는 해결하기 힘든 태스크일수록 효과적이라는 설계 사상과 일치하는 이야기입니다.

Fugu와 Fugu Ultra는 모두 OpenAI 호환 단일 API로 제공됩니다. 모델 ID는 fugu-ultra-20260615나 fugu와 같은 형태로, 기존의 OpenAI 클라이언트에서 그대로 호출할 수 있습니다. 멀티 에이전트(Multi-agent) 배선을 직접 작성할 필요가 없습니다.

from openai import OpenAI
# console.sakana.ai 에서 취득한 키와 엔드포인트를 사용
client = OpenAI(
...

포인트는 호출 코드가 일반적인 OpenAI 호환 요청과 다르지 않다는 점입니다. model에 Fugu를 지정하기만 하면, 백그라운드에서 에이전트 풀(Agent Pool)이 작동합니다.

요금은 일상적인 사용을 위한 구독형과 부하가 높은 용도를 위한 종량제(Pay-as-you-go) 두 가지 방식으로 운영됩니다. 출시 당시 각종 해설에서 보도된 금액은 다음과 같습니다.

구독형(월간)은 3단계로 나뉩니다.

플랜	월간 요금	예상 사용량	예상 사용자
Standard	$20	기본	가끔 하는 API 호출, 개인 실험
...

종량제(Fugu Ultra · 100만 토큰당)는 컨텍스트 길이(Context Length)에 따라 가격이 달라집니다.

구분	입력	출력	캐시 입력
표준 (~272K 토큰)	$5	$30	$0.50
고컨텍스트 (272K 초과)	$10	$45	$1.00

여기서 Fugu다운 점이 두 가지 있습니다. 첫 번째는 최대 컨텍스트 윈도우 (Context Window)가 100만 토큰에 달한다는 점입니다. 272K를 초과하는 긴 컨텍스트 임계값을 넘으면 위의 고컨텍스트 (High-context) 단가로 전환됩니다. 두 번째는 과금 방식입니다. Fugu는 내부적으로 여러 모델을 호출하지만, 복수의 에이전트 (Agent)가 작동하더라도 요금이 중첩되어 부과되지 않는다고 설명되어 있습니다 (순수 Fugu의 경우, 해당 시점에 실제로 활성화된 기초 모델에 따라 표준 가격이 변동하는 형태). 멀티 에이전트 (Multi-agent)를 사용하면서도, 과금은 마치 하나의 모델을 사용하는 것처럼 보인다는 뜻입니다.

💡 위의 요금은 출시 당시의 해설 기사 (DataCamp, Techsy 등)에서 보도된 수치로, 본 기사 작성 시점 (2026년 6월) 기준입니다. 또한 EU/EEA에서의 이용은 현재 시점에서 불가한 것으로 알려져 있습니다. 최신 공식 가격 및 제공 조건은 console.sakana.ai의 문서를 통해 확인하시기 바랍니다. 참고로 위의 코드에 사용된 엔드포인트 (Endpoint)와 모델 ID (Model ID)도 설명을 위한 예시입니다.

마지막으로, Fugu가 탄생하게 된 배경에 대해 언급하겠습니다. Sakana AI는 두 가지 동기를 들고 있습니다.

첫 번째는 기술적인 동기입니다. "가장 강력한 AI 시스템은 단일 구조가 아니라, 협력하는 에코시스템 (Ecosystem)이다"라는 견해입니다. 하나의 모델을 끊임없이 거대화시키는 노선의 끝에, 여러 모델의 협력이라는 또 다른 축을 배치했습니다.

두 번째는 지정학적인 동기로, 이 부분이 Fugu다운 주장입니다. 단일 벤더 (Vendor)에 대한 의존은 현실적인 약점이 될 수 있다는 지적입니다. 공식 측은 Anthropic의 Fable 5 및 Mythos 5에 부과된 수출 규제를 예로 들며, 규제가 바뀌면 하룻밤 사이에 액세스 조건이 변할 수 있다고 언급했습니다. 이를 바탕으로, 전 세계의 모델을 오케스트레이션 (Orchestration)하여 교체 가능하게 만들어 두는 것이 'AI 주권'을 뒷받침하는 선택지가 될 것이라고 위치 지었습니다.

에이전트 풀 (Agent Pool)이 교체 가능 (Swappable)하다는 것, 특정 벤더에 고정되지 않는다는 것. 이것들은 단순한 기술적 유연성이 아니라, 이러한 주권의 관점과 세트로 설계되었다는 점이 Fugu의 사상적인 특징입니다.

SAKANA Fugu / Fugu Ultra는 다른 LLM을 호출하여 지휘하는 오케스트레이션 모델입니다. Fugu는 속도 중시의 일상용, Fugu Ultra는 난제 해결을 위한 결전용이라는 두 가지 변체 (Variant)로 나뉘며, 둘 다 OpenAI 호환의 단일 API를 통해 멀티 에이전트의 복잡함을 드러내지 않고 사용할 수 있습니다. 아키텍처 (Architecture)는 ICLR 2026의 TRINITY와 Conductor를 토대로 하고 있으며, "협력하는 방식 그 자체를 학습한다"는 점이 새로운 부분이었습니다.

벤치마크 (Benchmark)에서는 Fugu Ultra가 코딩, 과학, 추론의 주요 벤치마크에서 Claude Opus 4.8, Gemini 3.1 Pro, GPT-5.5를 앞질렀으며, 11개 중 10개 항목에서 1위를 차지했다고 주장하고 있습니다. 반면, 이는 Sakana 자체의 공칭 수치이며 비교 대상 또한 각 사의 공칭 수치라는 점, 그리고 출시 직후에는 "단순한 라우터 (Router)에 불과한 것 아니냐"는 회의론도 나왔다는 점을 함께 기억해 둘 필요가 있습니다.

이 기사에서 한 가지만 가져가신다면, Fugu의 재미는 "단일 스코어의 높음"보다 "모델을 묶어서 지휘한다는 발상 그 자체"에 있다는 것입니다. 하나의 모델을 키우는 경쟁과는 다른 방향에 승부수를 던진 프로덕트이며, 그 승부가 성공할지는 앞으로 제삼자의 검증이 쌓여가면서 드러날 것입니다. 후속 소식이 기대되는 내용이었습니다 🐡

Insights

SAKANA Fugu / Fugu Ultra란? 다른 LLM을 묶어 지휘하는 「오케스트레이션 모델」

요약

핵심 포인트

댓글

해커, 테무 고객 데이터로 추정되는 정보를 판매 중이라고 주장

또 다른 암호화폐 기업, Russell 1000 지수 편입

J.P. Morgan, 스트레스 테스트 이후 500억 달러 규모의 자사주 매입 발표

Kilo CLI 실전 — roll-call로 500개 이상의 모델을 병렬 헬스 체크하기

해커, 테무 고객 데이터로 추정되는 정보를 판매 중이라고 주장

또 다른 암호화폐 기업, Russell 1000 지수 편입

J.P. Morgan, 스트레스 테스트 이후 500억 달러 규모의 자사주 매입 발표

Kilo CLI 실전 — roll-call로 500개 이상의 모델을 병렬 헬스 체크하기