GPT-5.6의 Sol, Terra, Luna: 성능보다 출력 토큰 감소가 핵심

OpenAI가 6월 26일에 공개한 차세대 모델군 GPT-5.6에서, 내가 가장 먼저 주목한 것은 벤치마크 최고 기록이 아니다. 동일한 보안 평가를 수행하는 데 이전 세대보다 출력 토큰(Output Token)이 약 3분의 1로 줄어들었다는 문장이다. 에이전트(Agent)를 운영하는 입장에서는 이것이 "똑똑해졌다"기보다 "같은 일을 더 저렴하게 할 수 있게 되었다"에 가깝다. 이번 업데이트는 능력 경쟁이라기보다 추론 비용의 절감과 그 예측 가능성에 무게 중심이 쏠려 있다.

공개된 것은 단일 모델이 아니라 성격이 다른 세 가지 모델이다. 이름은 Sol(태양), Terra(지구), Luna(달)이다. 이름 그대로 크기와 가격에 따라 정직하게 3단계로 나뉘어 있으며, 용도에 따라 선택하여 사용하는 것을 전제로 한다.

OpenAI 자체의 위치 설정에 따르면, Sol은 "프론티어 추론 및 장시간 에이전트 작업"을 위한 최상위 모델, Terra는 "GPT-5.5와 동등한 성능을 반값에 제공"하는 일상용 중위 모델, Luna는 가장 빠르고 저렴한 입문용 모델이다(OpenAI의 공지). 가격(100만 토큰당)은 다음과 같으며, 여러 소스에서 일치한다.

모델	입력	출력	위치 설정
Sol	$5	$30	최상위·장시간 에이전트
...

여기서 핵심이 되는 것이 앞서 언급한 토큰 효율이다. 에이전트의 실제 비용은 입력(Input)보다 모델이 내뱉는 출력 토큰에 의해 좌우되기 쉽다. 사고 과정이나 중간 단계(Intermediate steps)를 길게 출력하면 그만큼 과금이 쌓인다. OpenAI의 평가에 따르면, Sol은 CTF형 사이버 평가에서 GPT-5.5를 약간 상회하면서도 출력 토큰은 대폭 적다. 코딩 분야인 Terminal-Bench 2.1에서도 신기록을 주장하며, 후술할 ultra 모드에서는 90% 이상에 달했다고 한다. 생물학 계열인 SecureBio에서도 5.5 대비 약 9포인트의 향상이 있다고 한다. 모두 해당 기업의 자기 신고 내용으로 제3자의 재현 테스트는 앞으로 이루어져야 하지만, 소구점이 "점수"가 아니라 "같은 점수를 더 저렴하게"로 옮겨가고 있다는 점은 읽어낼 수 있다.

새로운 동작 모드도 두 가지 추가되었다. 난제 해결을 위해 사고량을 높이는 "max reasoning effort"와, 서브 에이전트(Sub-agent)를 동원하여 복잡한 작업을 분담시키는 "ultra mode"다. 후자는 하나의 모델 호출 이면에서 여러 보조 에이전트가 돌아가는 이미지로, 긴 절차를 요하는 태스크의 완수율을 끌어올리려는 의도로 보인다.

수수해 보이지만 실무에서 효과적인 것은 프롬프트 캐시(Prompt Cache)의 재설계다. LLM의 프롬프트 캐시는 시스템 프롬프트나 도구 정의(Tool definition)와 같이 매번 동일한 서문을 재계산하지 않고 재사용하는 메커니즘으로, 잘 적용되면 입력 비용을 크게 줄일 수 있다. 문제는 기존 OpenAI의 캐시가 자동·암묵적 방식이라 언제 만료되는지 불투명했다는 점이다. 에이전트 루프처럼 동일한 서문을 수십 번씩 보내는 용도에서는 캐시가 끊기는 순간 과금이 급증하여 비용 산출이 어려웠다.

GPT-5.6은 이 부분을 명시적인 캐시 구분점(Cache breakpoint)과 최소 30분의 캐시 유지로 변경했다(OpenAI Help Center). 개발자가 어디를 캐시할지 직접 지정할 수 있으며, 30분 동안은 유지된다는 것이 보장된다. 대신 캐시 쓰기(Write)는 미캐시 입력 단가의 1.25배로 과금되며, 읽기(Read)는 기존처럼 90% 할인이 적용된다.

쓰기 시에 약간의 추가 비용을 지불하는 대신, 캐시가 언제까지 유지될지에 대한 예측 가능성을 얻는 구조다.

구조적으로는 첫 등록 시 1.25배를 한 번 지불하고, 이후의 읽기를 1할의 단가로 회수하는 형태다. 동일한 시스템 프롬프트와 도구 스키마(Tool schema)를 재사용하는 에이전트일수록 이 회수 효과가 크다. 설계 측면에서는 Anthropic이 먼저 채택했던 명시적 캐시 제어 방식에 가깝게 움직인 것으로, 자동이라 편하지만 예측할 수 없는 방식에서, 번거롭더라도 견적을 낼 수 있는 방식으로 방향을 틀었다고 이해하면 납득이 간다.

기술적인 면과는 별개로, 이번에 가장 걸리는 부분은 출시 방식이다. GPT-5.6은 한정 프리뷰(Limited Preview) 상태로, API와 Codex를 경유하는 일부 신뢰할 수 있는 파트너에게만 개방되어 있다. ChatGPT에는 아직 탑재되지 않았으며, 일반 제공은 "수주 내에" 이루어질 예정이라고 한다. 게다가 OpenAI는 이러한 제한적 제공이 "미국 정부의 요청에 따른 것"이며, 일시적인 정부의 안전성 검토(Safety review)를 거치기 위함이라고 명시했다(VentureBeat).

이것은 조금 전 있었던, 외국 국적 사용자에게 제공을 중단한 수출 규제 이야기와는 별개의 문제다. 전자가 "누구에게 팔 수 있는가"에 대한 제약이라면, 이번에는 "언제 세상에 내놓을 수 있는가"를 출시 전 정부 리뷰(Government review)가 쥐고 있다는 이야기로, 프론티어 모델 (Frontier model)의 공개 그 자체에 사전 심사 게이트가 붙은 격이 된다. 사이버 및 생물학적 능력 향상을 전면에 내세운 모델인 만큼, 출하 전 단계에 심사가 끼어드는 흐름은 앞으로도 계속될 것으로 보여 이 부분은 후속 보도를 추적할 가치가 있다.

실무적인 시사점은 다음과 같다. 당장 바로 적용할 수 있는 단계는 아니지만, 일반 제공이 시작되면 선택 기준은 명확해질 것이다. 일상적인 생성이나 요약은 Terra가 제1순위 후보이며, GPT-5.5를 사용 중이라면 거의 그대로 절반 가격에 대체할 수 있다. 긴 절차를 동반하는 에이전트 (Agent)만 Sol로 올리고, 가벼운 용도는 Luna로 비용을 절감한다. 그리고 장시간 루프를 구성한다면, 명시적 캐시 (Explicit cache)의 경계를 의식하여 서두(Prefix)를 고정해 두어야 한다. 점수표를 보기 전에 출력 토큰 (Output token)과 캐시 (Cache) 설계를 먼저 살피는 것이 이 모델 세대를 다루는 방식이 될 것이다.

GPT-5.6의 Sol, Terra, Luna: 성능보다 출력 토큰 감소가 핵심

요약

핵심 포인트

댓글