Claude Sonnet 5에서 400 에러를 유발하는 3가지 지정: 2026년 7월 LLM 이행 체크리스트 (Opus 4.7 fast

2026년 6월 30일, Anthropic은 Claude Sonnet 5(claude-sonnet-5)를 공개했다. 「Sonnet 4.6의 드롭인 (drop-in) 후속」이라고 안내되고 있지만, 요청(request) 방식에 따라 이행 직후 400 에러가 발생하는 동작 변경이 3가지 있다. 또한 같은 7월 기간 내에, Opus 4.7의 fast mode가 7월 24일에 퇴역하며, OpenAI는 GPT-5.6 (Sol / Terra / Luna)를 통해 「추론의 노력도 (effort)」와 「서브 에이전트 병렬 (ultra mode)」이라는 새로운 제어 축을 제시했다.

이 기사는 실제 운영 환경에서 LLM API를 호출하고 있는 엔지니어를 위해 「2026년 7월에 실제로 수정해야 할 부분」을 1차 정보 기반으로 정리한 것이다. 공통된 흐름은 하나다. 선택 대상이 「어떤 모델인가」에서 「어떤 모델 × 어떤 사고/속도/병렬도인가」로 옮겨가고 있다.

확인 항목	뉴스의 함의	7월에 수정할 것
`temperature` / `top_p` / `top_k` 지정	Sonnet 5에서는 비기본값(non-default value) 설정 시 `400` 에러 발생	기본값으로 되돌리거나 보내지 않음. 동작은 시스템 프롬프트(system prompt)로 유도
`thinking: {type: "enabled", budget_tokens: N}`	Sonnet 5에서 삭제되어 `400` 에러 발생	`thinking: {type: "adaptive"}` ＋ `effort` 파라미터로 변경
`max_tokens` 값	Sonnet 5는 adaptive thinking이 기본 ON + 새로운 토크나이저(tokenizer)로 인해 약 30% 증가	출력 길이의 상한선을 재검토하고 토큰을 다시 측정
Opus 4.7의 `speed: "fast"`	2026-07-24에 삭제 (모델 본체는 표준 속도로 존속)	fast mode는 Opus 4.8로 이행
「빠른 모델이 필요하다」는 요구사항	추론은 노력도·병렬도로 제어하는 시대	effort/fast/서브 에이전트를 비용과 함께 설계

Anthropic의 공식 릴리스 노트 및 모델 해설 페이지에 따르면, claude-sonnet-5는 2026년 6월 30일에 공개되었다. 사양은 1M 토큰의 컨텍스트 (기본이자 최대), 최대 출력 128k 토큰, Priority Tier는 미지원이다. 가격은 표준으로 입력 $3 / 출력 $15 (per MTok, Sonnet 4.6과 동일한 금액)이며, 2026년 8월 31일까지는 도입 가격 $2 / $10가 적용된다.

공식 측은 「Sonnet 4.6의 드롭인 후속」이라고 하면서도, 3가지 동작 변경을 명시하고 있다.

adaptive thinking이 기본으로 ON. Sonnet 4.6에서는 thinking을 지정하지 않으면 사고(thinking) 없이 동작했지만, Sonnet 5에서는 동일한 요청이 adaptive thinking으로 동작한다. 이를 끄려면 thinking: {type: "disabled"}를 전달해야 한다.
샘플링 파라미터(sampling parameter) 미지원. temperature / top_p / top_k를 비기본값으로 설정하면 400 에러가 발생한다. 원문에서는 다음과 같이 설명되어 있다.

원문: "Setting temperature, top_p, or top_k to a non-default value returns a 400 error."

번역: 「temperature · top_p · top_k를 비기본값으로 설정하면 400 에러를 반환한다」(Anthropic 「What's new in Claude Sonnet 5」)

수동 extended thinking 삭제. thinking: {type: "enabled", budget_tokens: N}은 400 에러가 된다. 대신 adaptive thinking과 effort 파라미터를 사용한다.

더불어 토크나이저가 새로워져서, 동일한 텍스트라도 약 30% 더 많은 토큰이 발생한다. 이는 API의 형태(요청/응답/스트리밍)는 바꾸지 않지만, usage의 토큰 수, 컨텍스트에 들어가는 문장량, max_tokens의 실효성, 1회 요청당 실질 비용에 영향을 미친다. 또한, Sonnet 계열에서 처음으로 실시간 사이버 보안 세이프가드(cybersecurity safeguard)가 도입되어, 거부는 400이 아니라 stop_reason: "refusal"로 나타난다.

HTTP 200으로 반환된다는 점도 동작 특성으로서 파악해 두어야 한다.

"드롭인(Drop-in)"이라는 단어에 현혹되어 모델 ID만 교체할 경우, temperature를 고정하고 있는 코드나 budget_tokens로 사고량(thinking amount)을 제어하던 에이전트가 이행 직후에 작동을 멈춘다. 두 경우 모두 "400 에러로 즉사"하기 때문에 스테이징(Staging) 환경에서 먼저 호출해 보면 탐지하기는 쉽다. — 역설적으로 말하면, 검증 없이 운영 환경의 모델 ID만 전환하는 것이 가장 위험하다.

은근히 큰 영향을 미치는 것이 새로운 토크나이저(Tokenizer)다. 가격은 토큰 단가가 동일하더라도, 동일한 입력에 대해 토큰이 약 30% 증가하기 때문에 비용과 컨텍스트(Context) 소비는 실질적으로 변한다. 과거 Sonnet 4.6에서 측정했던 견적을 재사용하지 말고, 토큰 카운팅(token counting)으로 다시 측정하는 것이 안전하다. max_tokens를 "예상 출력에 딱 맞게" 설정해 둔 경우에는, 사고분(adaptive thinking)과 증가한 토큰으로 인해 출력이 중간에 끊길 가능성이 있다.

공식 문서(Fast mode)에 따르면, fast mode는 대응하는 Opus 모델에서 출력 처리량(OTPS)을 최대 2.5배로 높이는 research preview 기능으로, speed: "fast"와 beta 헤더 fast-mode-2026-02-01을 통해 옵트인(Opt-in)한다. 대응 모델은 Opus 4.8과 Opus 4.7뿐이다.

해당 Opus 4.7의 fast mode는 2026년 6월 25일에 지원 중단(Deprecated)되며, 2026년 7월 24일에 삭제된다. 삭제 후에는 claude-opus-4-7에 speed: "fast"를 보내면 에러가 발생한다. Opus 4.6처럼 표준 속도로 폴백(Fallback)되지 않는다(모델 본체는 표준 속도로 존속). 지속적인 이용을 위해서는 Opus 4.8로의 이행이 안내되어 있다. fast mode의 가격은 다음과 같다.

모델	입력	출력
Claude Opus 4.8	$10 / MTok	$50 / MTok
Claude Opus 4.7	$30 / MTok	$150 / MTok

또한 fast mode는 Batch API 및 Priority Tier와 병용할 수 없으며, 전용 레이트 리밋(Rate limit)을 가지며, 초과 시 429 (retry-after 포함)를 반환한다.

Opus 4.7에서 speed: "fast"를 사용하고 있다면 7월 24일이 실질적인 기한이다. 폴백되지 않는 사양이기 때문에 방치하면 당일부터 해당 요청이 실패한다. 이행 대상인 Opus 4.8은 fast mode 가격이 $10/$50으로 Opus 4.7($30/$150)보다 저렴하므로, 이행은 비용 측면에서도 타당하다.

설계상의 주의점은 두 가지다. 하나는 캐시(Cache)다. fast와 standard는 프롬프트 캐시(Prompt cache)의 프리픽스(Prefix)를 공유하지 않기 때문에, 속도를 전환하면 캐시 미스(Cache miss)가 발생한다. 다른 하나는 fast mode가 표준 속도로 자동 폴백되지 않는다는 점이다. 레이트 리밋 초과 시 429 / 529로 반환되므로, 대기할 것인지 표준 속도로 재전송할 것인지를 호출 측에서 결정해 두어야 한다.

OpenAI는 2026년 6월, GPT-5.6으로서 **Sol(플래그십) / Terra(일상용 밸런스) / Luna(고속·저비용)**의 3개 모델을 프리뷰 공개했다. 당초 약 20개의 조직에 한정 제공되었으며, 일반 제공은 몇 주 후로 예정되어 있다 (OpenAI 공식 "Previewing GPT-5.6 Sol" 및 VentureBeat 등의 보도).

개발자에게 새로운 것은 두 가지 제어 방식이다. 하나는 max reasoning effort로, Sol을 통해 더 긴 "생각할 시간"을 부여하여 기다리더라도 정확도를 확보하고자 하는 난제용 새로운 노력도(effort) 제어다. 다른 하나는 ultra mode로, 단일 에이전트를 넘어 서브 에이전트(Sub-agent)를 병렬로 실행하여 복잡한 태스크를 분할하고 가속하는 모드다.

여기서 중요한 것은 개별 스코어보다 구도다. Anthropic 측도 effort 파라미터와 fast mode를 통해 "사고량"과 "속도"를 분리해 왔다. OpenAI의 max effort / ultra mode 역시 방향은 같으며, "어떤 모델을 선택할 것인가"뿐만 아니라 "얼마나 생각하게 하고, 얼마나 병렬로 실행할 것인가"가 비용과 레이턴시(Latency)를 좌우하는 설계 변수가 되었다는 의미다.

실무적으로는 에이전트를 구성할 때 "모델명을 하나 결정하고 끝"내는 것이 아니라, 태스크의 난이도에 따라 노력도(effort / reasoning effort)를 높이거나 낮추며, 정형·대량 처리는 저노력+고속, 난도가 높은 구간은 고노력+필요 시 병렬 처리와 같이 구분하여 운용하는 것이 전제가 된다. 병렬(ultra/서브 에이전트)은 빠르지만 토큰 소비가 늘어나기 때문에, 비용 산정은 "1 리퀘스트(request)"가 아니라 "1 태스크가 배후에서 모델을 몇 번 호출하는가"를 기준으로 세울 필요가 있다.

Claude Sonnet 5로 이행하기

temperature / top_p / top_k의 비기본(non-default) 지정 사항을 파악하여 삭제하거나 기본값으로 되돌리기
thinking: {type: "enabled", budget_tokens: N}를 thinking: {type: "adaptive"} + effort로 교체하기
사고(thinking) 없이 동작시키고 싶은 부분은 thinking: {type: "disabled"}를 명시하기
토큰 카운팅(token counting)으로 프롬프트를 다시 측정하여, 약 30% 증가를 전제로 max_tokens와 비용 산정 업데이트하기
우선 스테이징(staging) 환경에서 테스트하여 400 에러가 발생하지 않는 것을 확인한 후, 운영 환경의 모델 ID를 전환하기

fast mode (Opus) 점검하기

claude-opus-4-7 + speed: "fast" 사용 사례를 grep으로 검색하여 7월 24일까지 Opus 4.8로 이행하기
fast ↔ standard 전환 시의 캐시 미스(cache miss)와 429 발생 시의 재전송/폴백(fallback) 방침 구현하기

추론 제어축을 설계에 포함하기

에이전트의 각 단계를 "노력도(저/고) × 속도 × 병렬 필요 여부"로 분류하고, 비용과 함께 구분하여 운용하기
"드롭인(drop-in) 방식이니까"라며 모델 ID만 교체하기. Sonnet 5는 temperature 고정이나 budget_tokens 지정 시 400 에러가 발생한다. 검증 없는 일괄 교체가 가장 위험하다.
토크나이저(tokenizer) 변경을 "가격 동결"로 오해하기. 단가는 같더라도 동일한 입력에 대해 토큰이 약 30% 증가하므로, 실제 비용과 컨텍스트(context) 소비는 늘어난다. 구형 모델에서 측정했던 산정치를 그대로 사용하지 마라.
fast mode가 표준 속도로 떨어질 것이라고 착각하기. Opus 4.7의 fast mode는 7월 24일 이후 폴백(fallback)되지 않고 에러가 발생한다. Opus 4.6의 동작(표준 속도로 계속 진행)과 혼동하지 마라.
거부 응답을 에러로 취급하기. Sonnet 5의 세이프가드(safeguard)에 의한 거부는 400이 아니라 stop_reason: "refusal"인 HTTP 200이다. 예외 처리만 보고 있으면 이를 놓칠 수 있다.
ultra(병렬)의 비용을 1 리퀘스트 단가로 산정하기. 서브 에이전트가 배후에서 여러 번 모델을 호출한다는 전제하에, 태스크 단위의 토큰 소비를 산정하라.
Anthropic 「Claude Sonnet 5에서 새로운 기능」 https://platform.claude.com/docs/en/about-claude/models/whats-new-sonnet-5
Anthropic 「Claude Platform 출시 노트 (2026년 6월 30일 Claude Sonnet 5)」 https://platform.claude.com/docs/en/release-notes/overview
Anthropic 「Fast mode (연구 미리보기)」 https://platform.claude.com/docs/en/build-with-claude/fast-mode
Anthropic 「Effort」 https://platform.claude.com/docs/en/build-with-claude/effort
OpenAI 「GPT-5.6 Sol 미리보기」 https://openai.com/index/previewing-gpt-5-6-sol/
VentureBeat 「OpenAI, GPT-5.6 Sol, Terra 및 Luna 공개」 https://venturebeat.com/technology/openai-unveils-gpt-5-6-sol-terra-and-luna-models-but-only-accessible-to-limited-preview-partners-for-now-per-us-gov

Insights

Claude Sonnet 5에서 400 에러를 유발하는 3가지 지정: 2026년 7월 LLM 이행 체크리스트 (Opus 4.7 fast

요약

핵심 포인트

댓글

Midnight AI Groove 26-06-25

Codex가 연간 640TB를 SSD에 쓰고 있었던 원인, TRACE 로그를 추적하다

하이브리드 검색(Hybrid Retrieval)과 LangChain을 활용한 프로덕션급 RAG 파이프라인 구축

Midnight AI Groove 26-06-25

Codex가 연간 640TB를 SSD에 쓰고 있었던 원인, TRACE 로그를 추적하다

하이브리드 검색(Hybrid Retrieval)과 LangChain을 활용한 프로덕션급 RAG 파이프라인 구축