
Sakana Fugu 기술 보고서
요약
Sakana AI가 발표한 Fugu는 단일 거대 모델 대신 다양한 모델을 쿼리별로 동적으로 라우팅하고 조합하는 오케스트레이터 기술입니다. SFT와 GRPO 등을 통해 학습된 이 시스템은 각 모델의 강점에 맞춰 최적의 워크플로우를 구성합니다.
핵심 포인트
- 다양한 LLM을 쿼리 특성에 따라 동적으로 라우팅하는 오케스트레이터 기술
- SFT, 진화 전략, GRPO를 활용한 Fugu-Ultra의 심층 멀티 에이전트 지휘 기능
- 수학, 과학, 디버깅 등 작업별 최적 모델(GPT, Gemini, Claude 등) 자동 선택
- SWE-Bench Pro 등 주요 벤치마크에서 SoTA 성능 달성
Sakana AI는 하나의 더 큰 모델을 학습시키는 대신, 각 쿼리를 읽고 GPT-5.5, Gemini-3.1-Pro, Claude Opus 4.8 및 기타 에이전트들을 쿼리별 워크플로우(workflow)로 동적으로 라우팅(routing)하거나 조합하는 오케스트레이터(orchestrator)를 학습시킵니다.
Fugu는 빠른 라우터(fast router) 역할을 하며, Fugu-Ultra는 SFT(Supervised Fine-Tuning), 진화 전략(evolutionary strategies) 및 GRPO(Group Relative Policy Optimization)를 통해 학습되어 적응형 스캐폴드(adaptive scaffolds)를 구축하는 심층 멀티 에이전트 지휘자(deep multi-agent conductor) 역할을 합니다.
핵심 아이디어는 모델이 수학에는 GPT를, 과학 및 회상(recall)에는 Gemini를, 디버깅에는 Opus를 선택하게 하고, 단일 에이전트가 최선이 아닐 때는 이들을 합성(synthesize)하는 것입니다.
이 라우터는 SWE-Bench Pro, Terminal Bench, LiveCodeBench, GPQA-Diamond, CharXiv 등에서 SoTA(State-of-the-Art) 결과를 달성할 수 있으며, 이는 오케스트레이션(orchestration)이 모델 학습을 넘어선 실질적인 대안이 될 수 있는 잠재력을 보여줍니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 X 토픽: Claude/Anthropic의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기