Sakana Fugu와 Claude Code/Codex를 동일한 프롬프트로 실행하여 비교 — 지금 갈아타지 않기로 판단한 이유 - Insights | Molayo

이미 Claude Code와 Codex를 일상적으로 사용하고 있는 제가, 이번 주에 GA(General Availability)된 Sakana Fugu로 갈아타야 할지 고민되어, 동일한 프롬프트와 동일한 태스크로 실측하여 비교해 보았습니다. 새로운 코딩 에이전트가 나올 때마다 갈아탈지 고민하는 분들이 많을 것이라 생각합니다. 저 또한 그중 한 명이었습니다.

결론부터 말씀드리겠습니다.

제가 일상적으로 사용하는 용도에서는, 지금 갈아탈 이유는 찾지 못했습니다.
차이가 난 부분은 비용과 속도입니다. 품질 (정답률)은 4가지 모두 거의 비슷했습니다. Fugu Ultra는 비용이 약 20배, 속도도 몇 배 더 느린 결과였습니다.
이는 2026년 6월 시점·단발성 태스크 기준이며, Fugu가 더 좋았던 상황도 있었습니다.
Fugu와 Claude / Codex 중 무엇을 사용할지 고민하는 분들을 위해, 비교 조건과 실측값을 모두 공개합니다.

공식 측은 Fugu의 상위 모델을 "shoulder-to-shoulder with Fable 5" (Fable 5와 어깨를 나란히 하는)라고 표현하고 있습니다. 다만 Fable 5는 이미 서비스가 종료되어, 그 부분은 직접 비교할 수 없었습니다.

먼저 적합성과 부적합성만

자세한 내용은 마지막에 정리하겠지만, 빠른 판단을 위한 자료를 먼저 배치합니다.

이미 Claude Code / Codex를 사용하고 있다면, 지금 급하게 갈아탈 필요는 적습니다.
속도·비용·데이터 처리를 중시한다면, Claude나 OpenAI를 직접 사용하는 것이 무난합니다.
유일한 차별점은 여러 프로바이더(Provider)를 하나로 통합할 수 있다는 점입니다. 다만, 하나의 모델만 사용할 수 있으면 충분하다면 쓸 일이 없습니다.

Fugu는 내부에서 무엇을 하고 있는가

출시된 지 얼마 되지 않았고, 단일 API처럼 보이는데 멀티 에이전트(Multi-agent)라고 설명되어 있어 내부를 파악하기 어려운 모델입니다. 먼저 구조를 이해해 두면, 나중에 비용 이야기를 이해하기 쉽습니다.

Fugu API의 이면에는 지휘 역할을 하는 LLM이 하나 있습니다. 공개 정보에 따르면 약 7B 규모의 작은 모델이라고 알려져 있습니다 (1차 소스는 미확인). 요청을 보내면 지휘자는 내부적으로 두 가지 중 하나를 결정합니다. 직접 답할 것인가, 아니면 다른 모델들로 팀을 구성해 맡길 것인가입니다. 어려운 질문이라면 여러 전문 모델로 나누어 던지고, 결과를 검증한 뒤 하나로 합칩니다. 나아가 자기 자신을 다시 호출하여 심층적으로 파고들기도 합니다. 풀(Pool)에 들어가는 모델의 정체는 공식적으로 밝혀지지 않았으나, 타사의 최상위급 모델들이 포함되어 있다고 알려져 있습니다. Fugu는 이것들을 직접 보유하고 있는 것이 아니라, 외부 모델을 취합하여 사용하는 형태입니다.

Claude Code나 Codex는 이용자 측에서 모델과 도구(Tool)의 호출을 제어합니다.

반면 Fugu는 그 판단을 모델 스스로가 내부에서 수행합니다.

에이전트의 움직임이 이용자의 손이 아닌 모델 내부에서 완결됩니다. Claude Code나 Codex처럼 손끝에서 분배 과정을 볼 수 없습니다.

실제로 토큰을 측정해 보니, 이 내부 처리의 무게감이 명확히 드러났습니다. 일반적인 Fugu에서는 지휘자가 거의 단독으로 답하여 내부 처리 토큰이 0이었습니다. Fugu Ultra에서는 청구 토큰의 92%, 문제당 평균 약 8,180토큰이 백그라운드의 상호작용에 소비되었습니다. 눈에 보이는 입출력이 수백 토큰이라 하더라도, 뒤에서 1만 토큰 가까이 움직이면 그만큼을 지불해야 합니다. 나중에 확인하게 될 비용 차이는 거의 이 내부 처리로 설명할 수 있습니다.

비교의 전제

수치를 제시하기 전에, 무엇을 어떻게 측정했는지 정리해 두겠습니다. 미리 말씀드리자면, 4가지를 완전히 동일한 프롬프트와 동일한 채점 기준으로 맞추었으므로, 아래에 나오는 수치는 그대로 나란히 비교할 수 있습니다.

비교 대상은 4가지입니다. 일반 Fugu와 Fugu Ultra 2개 모델에, Claude (Opus 4.8)와 GPT-5.5를 추가했습니다. 모두 OpenAI 호환 API이므로, 동일한 코드로 엔드포인트(Endpoint)만 교체하여 동일한 프롬프트를 던졌습니다.

태스크는 공개된 일회성 문제들로만 구성했습니다. 내용은 한 번의 왕복으로 정답 확인이 가능한 단발성 태스크 총 11문항입니다. 내역은 알고리즘 구현이 4문항, 문장제 문제나 논리 퍼즐 등의 추론이 4문항, 그리고 실무에 조금 더 가까운 구조화된 출력(Structured Output)이 3문항입니다 (JSON을 반환하는 출하 판정, 심어놓은 버그의 코드 리뷰, API 명세 추출). 문제와 채점 기준은 Claude (Opus 4.8)가 만들게 하고, 실행은 Codex가 담당했습니다.

각 회차에 대해 정오답, 응답 시간, 토큰, 추정 비용, 내부 처리량을 기록했습니다. 평가 축은 품질, 속도, 비용, 운용의 4가지입니다.

결과 1: 정답률은 거의 비슷함

먼저 품질입니다. 결론부터 말씀드리면 차이가 없었습니다.

모델	정답 (쉬운 문제 8문항)	평균 응답 시간	비용 (8문항 합계)
Fugu Ultra	8/8	48.9초	$0.94
...
※ 위 표는 채점이 기계적으로 확정될 수 있었던 쉬운 문제 8문항의 집계입니다. 남은 추론 4문항 및 실무 3문항은 본문에서 개별적으로 다룹니다.

쉬운 8문항은 4개 모두 전 문항 정답이었습니다. 실무에 가까운 3문항에서도 출하 판정과 API 사양 추출은 모두 해결했습니다. 차이가 난 것은 코드 리뷰 1문항뿐입니다. 사이즈에 0을 전달했을 때 에러를 내야 하는데 내지 않는 버그가 있었습니다. 이를 Fugu Ultra와 GPT-5.5는 놓쳤고, Claude와 일반 Fugu는 지적했습니다. 게다가 이 실수는 Fugu Ultra에서 5번 시도했을 때 5번 모두 동일했습니다. 내부적으로 무겁게 작동하는 Fugu Ultra가 일반 Fugu보다 더 좋은 답을 내놓은 것은 아닙니다.

품질 면에서 Fugu가 다른 모델을 확실히 앞서는 장면은 이번 범위 내에는 없었습니다.

결과 2: 비용에서 크게 패배

이 부분이 가장 큰 차이입니다. 1문항당으로 환산하면 Fugu Ultra는 약 $0.117, Claude는 약 $0.0066, GPT-5.5는 약 $0.0058였습니다. Claude나 GPT-5.5보다 약 20배가 더 소요됩니다.

이유는 처음에 확인한 바와 같습니다. Fugu Ultra는 청구 토큰의 92%를 내부 처리(internal processing)에 사용하며, 그만큼이 그대로 가격에 반영됩니다. 일반 Fugu는 이러한 백엔드 상호작용이 거의 없는 만큼 저렴해야 하지만, 요금이 공개되지 않아 비용 비교 대상으로 삼을 수 없습니다.

결과 3: 응답 시간도 느림

응답 시간 또한 Fugu는 두 모델 모두에서 뒤처졌습니다. Fugu Ultra는 평균 48.9초, 일반 Fugu도 10.8초입니다. Claude가 3.9초, GPT-5.5가 16.9초이므로, 일반 Fugu조차 몇 배 더 느린 셈입니다. Fugu Ultra는 한 문제에 1분 가까이 걸리는 경우도 있어, 대화형으로 사용하기에는 체감상 고통스러운 수준이었습니다.

도구와 운용 (작업 환경과 데이터의 행방)

운용 면에서는 두 가지 문제가 있습니다. 작업 환경이 없다는 것과, 기본 설정으로 데이터가 외부로 나간다는 점입니다.

첫 번째. Fugu는 Claude Code나 Codex와 같은 체급이 아닙니다. Claude Code나 Codex는 모델에 더해 파일을 편집하거나 명령어를 실행하는 작업 환경이 한 세트로 제공됩니다. Fugu에는 그것이 없으며 모델 단독으로 존재합니다. 사용할 때는 Codex와 같은 기존 도구에 엔드포인트(endpoint)로서 통합하는 형태가 됩니다. 통합 자체는 가능하지만, 그 상태에서 각 도구의 정교하게 만들어진 기능들이 어디까지 활용될 수 있는지는 공식적인 설명이 없습니다.

두 번째는 데이터의 행방입니다. Fugu는 아무것도 설정하지 않으면 입력한 프롬프트를 외부 모델로 전송합니다. 설정으로 프로바이더(provider)를 제한할 수는 있지만, 기본값은 입력값이 제3자의 모델로 전달된다는 전제입니다. 직접 API를 호출하는 것보다 경로가 한 단계 더 추가되므로, 기밀이나 개인 정보를 다룬다면 직접 이용하는 것이 무난합니다.

Fugu의 장점은 무엇인가

이긴 항목은 없었지만, 설계 측면에서 한 가지 흥미로운 점이 있습니다. 여러 프로바이더의 모델을 하나의 API 뒤에서 묶어주고 있다는 점입니다. 특정 회사의 모델이 중단되거나 사용할 수 없게 되더라도, Fugu 측에서 다른 모델로 재할당할 수 있습니다.

물론, 하나의 모델만 사용할 수 있으면 충분한 용도에서는 이 강점이 발휘될 일이 거의 없습니다. 효용이 발생하는 경우는 특정 프로바이더의 중단이나 제약을 피하고 싶다는 요구사항이 실제로 존재할 때입니다. 이번 단발성 태스크에서도 그럴 기회는 없었습니다.

지금 갈아타지 않기로 판단한 이유

측정한 범위 내에서의 결론을 정리합니다. 이미 Claude나 Codex를 사용하고 있는 저에게 있어, 지금 갈아탈 이유는 보이지 않았습니다. 품질은 비슷비슷한 수준이고, Fugu Ultra는 비용이 약 20배 더 비싸며, 두 모델 모두 느리고, 전용 작업 환경도 없습니다.

적합 여부는 용도에 따라 갈립니다.

이미 Claude나 Codex를 사용 중인 사람: 지금 갈아탈 이유는 희박합니다.
특정 프로바이더의 중단이나 제약을 피하고 싶다는 요구사항이 실제로 있는 사람: 유일한 차별점은 이 부분이며, 그 외에는 쓸모가 없습니다.
비용이나 속도를 최우선으로 하는 사람과 기밀 데이터를 다루는 사람: 직접 Claude나 GPT를 이용하는 것이 좋습니다.

저는 어떻게 할까요. 단발성 태스크(Single-task)를 위해 갈아탈 이유는 찾지 못했지만, 이번 달에 가입한 분은 캠페인 덕분에 다음 달에도 Standard 플랜을 무료로 이용할 수 있습니다 (공식적으로 "2026년 7월 31일까지 가입하면 2개월 차가 무료"라고 명시되어 있습니다). 따라서 해지는 서두르지 않겠습니다.

마치며

새로운 모델이 나올 때마다 갈아타는 것을 고민하게 된다는 이야기로 시작했습니다. Fugu를 동일한 조건에서 나란히 놓고 측정한 결과, 저의 용도에서는 지금은 갈아타지 않겠다는 결론에 도달했습니다.

다만 측정한 것은 영어 단발성 태스크이며, 상황을 지켜보기 위해 가입한 Standard 플랜의 범위 내에서의 결과입니다. 일본어 작업이나 여러 파일을 넘나드는 작업, 긴 문맥 (Long context), 논문 재현과 같은 무거운 용도는 측정하지 못했습니다. Fugu의 진가가 발휘된다면 오히려 그쪽 분야일지도 모릅니다.

Sakana Fugu와 Claude Code/Codex를 동일한 프롬프트로 실행하여 비교 — 지금 갈아타지 않기로 판단한 이유

요약

핵심 포인트