일주일 전, 지구상에서 가장 강력한 코딩 모델은 Claude의 Fable 5였습니다.

요약

OpenAI가 출시한 GPT-5.6 모델 시리즈(Sol, Terra, Luna)의 성능과 특징을 분석합니다. 특히 Sol Ultra 모델은 서브 에이전트 군집 방식을 통해 코딩 벤치마크에서 압도적인 성능을 보여주지만, 강력한 성능으로 인해 정부의 규제와 통제 대상이 되고 있음을 다룹니다.

핵심 포인트

GPT-5.6은 Sol, Terra, Luna 세 가지 역할별 모델로 구성됨
Sol Ultra는 서브 에이전트 병렬 처리를 통해 TerminalBench 2.1에서 91.9% 기록
토큰 사용량을 줄이면서도 높은 성능을 유지하는 효율성 확보
강력한 성능으로 인해 사이버 보안 및 생물학 분야에서 정부의 규제 대상임

그 후 미국 정부가 개입하여 이를 차단했습니다. 수출 통제 지침(Export-control directive), 6월 12일 — Fable 5와 Mythos 티어 전체가 사라졌습니다. 속도 제한이 아닙니다. 전 세계적으로 중단되었습니다. 트래픽이 제로입니다.

그리고 그 기묘한 침묵 속에서, OpenAI가 등장하여 GPT-5.6을 출시했습니다.

왜 타이밍이 이야기의 핵심인지 설명하겠습니다.

GPT-5.6은 단일 모델이 아닙니다 — 논리에 따라 세 가지 모델로 구성되어 있습니다. 가장 어려운 문제를 해결하기 위한 강력한 모델인 Sol, GPT-5.5와 성능은 비슷하면서 비용은 절반인 데일리 드라이버(daily driver) Terra, 그리고 저렴한 스프린터(sprinter)인 Luna입니다. 태양(Sun), 지구(Earth), 달(Moon). 숫자는 세대를 의미하고, 이름은 역할을 의미합니다.

하지만 진짜 업그레이드는 단순한 IQ가 아닙니다 — Sol이 이제 두 가지 새로운 기어로 사고한다는 점입니다. "Max"는 하나의 어려운 체인(chain)에 대해 더 깊게 추론할 수 있게 해주며, "Ultra"는 문제를 병렬로 작동하는 서브 에이전트(sub-agents)들로 나눕니다 — 독주자가 아닌 팀으로서 작동하는 것입니다. 이러한 군집(swarm) 방식 덕분에 Sol Ultra는 TerminalBench 2.1에서 91.9%를 기록했습니다. 이는 단순히 "OpenAI 치고는 괜찮은" 수준이 아니라, 실제 커맨드 라인(command-line) 코딩에서 진정한 최첨단(state of the art)이자, 그 누구도 달성하지 못한 최고 수준입니다.

또한 이는 더 적은 토큰(tokens)을 사용하면서 수행됩니다. 사이버 테스트에서 Sol은 출력량의 약 3분의 1만 사용하면서 훨씬 더 무거운 모델과 대등한 성능을 보여줍니다. 생물학 분야에서는 더 적은 자원을 소모하면서 GPT-5.5를 능가합니다. 작업당 비용이 저렴해지는 것이 실제로 복리 효과를 내는 이득입니다.

Sol이 다른 모델들과 조용히 격차를 벌리는 지점은 실제 업무의 지루하고 고통스러운 중간 과정입니다 — 파일 전체에 걸쳐 버그를 추적하고, 몇 시간 동안 컨텍스트(context)를 유지하며, 실제로 완료되기 전에 "완료"라고 선언하지 않는 과정 말입니다. Agent's Last Exam에서 Sol은 절반 지점을 통과한 유일한 모델입니다. 대부분의 모델은 결승선에 도달하기 훨씬 전에 무너집니다.

이제 솔직한 주의사항(asterisk)을 말씀드리겠습니다. 이것이 바로 반전(punchline)이기도 합니다: 순수 코딩 벤치마크(benchmarks)에서는 여전히 Fable 5가 승리합니다. 단지 작동하지 않을 뿐입니다. 최고의 모델은 아무도 실행할 수 없는 모델이며, 두 번째로 좋은 모델은 OpenAI가 출시할 수 있도록 허용된 모델입니다.

허용된(Allowed). 바로 그 단어가 당신을 멈춰 세워야 할 단어입니다.

GPT-5.6은 사이버 보안과 생물학 분야에서 매우 강력하기 때문에 정부가 이를 제한했습니다. 제한된 미리보기(limited preview), 약 20개의 승인된 파트너, 고객별로 승인된 액세스 권한 등으로 말이죠. 작고 빠른 모델인 Luna조차도 "높음(High)" 위험 등급을 받았습니다. 그렇게 저렴한 모델이 해당 라벨을 받은 것은 이번이 처음입니다.

따라서 GPT-5.6의 진짜 이야기는 그것이 더 똑똑하다는 것이 아닙니다. 우리가 역사상 가장 유능한 두 모델이 불과 2주 간격으로 무기처럼 통제되는 것을 목격했다는 사실입니다.

능력(Capability)은 벤치마크에서 승리했습니다. 하지만 허가(Permission)가 전쟁에서 승리하고 있습니다.

현재로서는 태양만이 여전히 빛나고 있는 유일한 별입니다. ☀️
[IMG:1]
[IMG:2]

AI 자동 생성 콘텐츠

원문 바로가기

일주일 전, 지구상에서 가장 강력한 코딩 모델은 Claude의 Fable 5였습니다.

요약

핵심 포인트

댓글