
Claude Sonnet 5에서 400 에러를 유발하는 3가지 지정: 2026년 7월 LLM 이행 체크리스트 (Opus 4.7 fast
요약
Anthropic의 Claude Sonnet 5 출시와 함께 발생하는 API 400 에러 원인과 대응 방안을 정리했습니다. 모델의 동작 방식이 '모델 선택'에서 '사고/속도/병렬도 제어'로 변화함에 따라 엔지니어가 수정해야 할 체크리스트를 제공합니다.
핵심 포인트
- Sonnet 5에서 temperature 등 샘플링 파라미터 비기본값 설정 시 400 에러 발생
- 기존 budget_tokens 방식 대신 adaptive thinking과 effort 파라미터 사용 필요
- 새로운 토크나이저 적용으로 max_tokens 상한선 재검토 권장
- Opus 4.7 fast mode가 2026년 7월 24일 퇴역 예정
2026년 6월 30일, Anthropic은 Claude Sonnet 5(claude-sonnet-5)를 공개했다. 「Sonnet 4.6의 드롭인 (drop-in) 후속」이라고 안내되고 있지만, 요청(request) 방식에 따라 이행 직후 400 에러가 발생하는 동작 변경이 3가지 있다. 또한 같은 7월 기간 내에, Opus 4.7의 fast mode가 7월 24일에 퇴역하며, OpenAI는 GPT-5.6 (Sol / Terra / Luna)를 통해 「추론의 노력도 (effort)」와 「서브 에이전트 병렬 (ultra mode)」이라는 새로운 제어 축을 제시했다.
이 기사는 실제 운영 환경에서 LLM API를 호출하고 있는 엔지니어를 위해 「2026년 7월에 실제로 수정해야 할 부분」을 1차 정보 기반으로 정리한 것이다. 공통된 흐름은 하나다. 선택 대상이 「어떤 모델인가」에서 「어떤 모델 × 어떤 사고/속도/병렬도인가」로 옮겨가고 있다.
| 확인 항목 | 뉴스의 함의 | 7월에 수정할 것 |
|---|---|---|
temperature / top_p / top_k 지정 | Sonnet 5에서는 비기본값(non-default value) 설정 시 400 에러 발생 | 기본값으로 되돌리거나 보내지 않음. 동작은 시스템 프롬프트(system prompt)로 유도 |
thinking: {type: "enabled", budget_tokens: N} | Sonnet 5에서 삭제되어 400 에러 발생 | thinking: {type: "adaptive"} + effort 파라미터로 변경 |
max_tokens 값 | Sonnet 5는 adaptive thinking이 기본 ON + 새로운 토크나이저(tokenizer)로 인해 약 30% 증가 | 출력 길이의 상한선을 재검토하고 토큰을 다시 측정 |
Opus 4.7의 speed: "fast" | 2026-07-24에 삭제 (모델 본체는 표준 속도로 존속) | fast mode는 Opus 4.8로 이행 |
| 「빠른 모델이 필요하다」는 요구사항 | 추론은 노력도·병렬도로 제어하는 시대 | effort/fast/서브 에이전트를 비용과 함께 설계 |
Anthropic의 공식 릴리스 노트 및 모델 해설 페이지에 따르면, claude-sonnet-5는 2026년 6월 30일에 공개되었다. 사양은 1M 토큰의 컨텍스트 (기본이자 최대), 최대 출력 128k 토큰, Priority Tier는 미지원이다. 가격은 표준으로 입력 $3 / 출력 $15 (per MTok, Sonnet 4.6과 동일한 금액)이며, 2026년 8월 31일까지는 도입 가격 $2 / $10가 적용된다.
공식 측은 「Sonnet 4.6의 드롭인 후속」이라고 하면서도, 3가지 동작 변경을 명시하고 있다.
- adaptive thinking이 기본으로 ON. Sonnet 4.6에서는
thinking을 지정하지 않으면 사고(thinking) 없이 동작했지만, Sonnet 5에서는 동일한 요청이 adaptive thinking으로 동작한다. 이를 끄려면thinking: {type: "disabled"}를 전달해야 한다. - 샘플링 파라미터(sampling parameter) 미지원.
temperature/top_p/top_k를 비기본값으로 설정하면400에러가 발생한다. 원문에서는 다음과 같이 설명되어 있다.
원문: "Setting temperature, top_p, or top_k to a non-default value returns a 400 error."
번역: 「temperature · top_p · top_k를 비기본값으로 설정하면 400 에러를 반환한다」(Anthropic 「What's new in Claude Sonnet 5」)
- 수동 extended thinking 삭제.
thinking: {type: "enabled", budget_tokens: N}은400에러가 된다. 대신 adaptive thinking과effort파라미터를 사용한다.
더불어 토크나이저가 새로워져서, 동일한 텍스트라도 약 30% 더 많은 토큰이 발생한다. 이는 API의 형태(요청/응답/스트리밍)는 바꾸지 않지만, usage의 토큰 수, 컨텍스트에 들어가는 문장량, max_tokens의 실효성, 1회 요청당 실질 비용에 영향을 미친다. 또한, Sonnet 계열에서 처음으로 실시간 사이버 보안 세이프가드(cybersecurity safeguard)가 도입되어, 거부는 400이 아니라 stop_reason: "refusal"로 나타난다.
HTTP 200으로 반환된다는 점도 동작 특성으로서 파악해 두어야 한다.
"드롭인(Drop-in)"이라는 단어에 현혹되어 모델 ID만 교체할 경우, temperature를 고정하고 있는 코드나 budget_tokens로 사고량(thinking amount)을 제어하던 에이전트가 이행 직후에 작동을 멈춘다. 두 경우 모두 "400 에러로 즉사"하기 때문에 스테이징(Staging) 환경에서 먼저 호출해 보면 탐지하기는 쉽다. — 역설적으로 말하면, 검증 없이 운영 환경의 모델 ID만 전환하는 것이 가장 위험하다.
은근히 큰 영향을 미치는 것이 새로운 토크나이저(Tokenizer)다. 가격은 토큰 단가가 동일하더라도, 동일한 입력에 대해 토큰이 약 30% 증가하기 때문에 비용과 컨텍스트(Context) 소비는 실질적으로 변한다. 과거 Sonnet 4.6에서 측정했던 견적을 재사용하지 말고, 토큰 카운팅(token counting)으로 다시 측정하는 것이 안전하다. max_tokens를 "예상 출력에 딱 맞게" 설정해 둔 경우에는, 사고분(adaptive thinking)과 증가한 토큰으로 인해 출력이 중간에 끊길 가능성이 있다.
공식 문서(Fast mode)에 따르면, fast mode는 대응하는 Opus 모델에서 출력 처리량(OTPS)을 최대 2.5배로 높이는 research preview 기능으로, speed: "fast"와 beta 헤더 fast-mode-2026-02-01을 통해 옵트인(Opt-in)한다. 대응 모델은 Opus 4.8과 Opus 4.7뿐이다.
해당 Opus 4.7의 fast mode는 2026년 6월 25일에 지원 중단(Deprecated)되며, 2026년 7월 24일에 삭제된다. 삭제 후에는 claude-opus-4-7에 speed: "fast"를 보내면 에러가 발생한다. Opus 4.6처럼 표준 속도로 폴백(Fallback)되지 않는다(모델 본체는 표준 속도로 존속). 지속적인 이용을 위해서는 Opus 4.8로의 이행이 안내되어 있다. fast mode의 가격은 다음과 같다.
| 모델 | 입력 | 출력 |
|---|---|---|
| Claude Opus 4.8 | $10 / MTok | $50 / MTok |
| Claude Opus 4.7 | $30 / MTok | $150 / MTok |
또한 fast mode는 Batch API 및 Priority Tier와 병용할 수 없으며, 전용 레이트 리밋(Rate limit)을 가지며, 초과 시 429 (retry-after 포함)를 반환한다.
Opus 4.7에서 speed: "fast"를 사용하고 있다면 7월 24일이 실질적인 기한이다. 폴백되지 않는 사양이기 때문에 방치하면 당일부터 해당 요청이 실패한다. 이행 대상인 Opus 4.8은 fast mode 가격이 $10/$50으로 Opus 4.7($30/$150)보다 저렴하므로, 이행은 비용 측면에서도 타당하다.
설계상의 주의점은 두 가지다. 하나는 캐시(Cache)다. fast와 standard는 프롬프트 캐시(Prompt cache)의 프리픽스(Prefix)를 공유하지 않기 때문에, 속도를 전환하면 캐시 미스(Cache miss)가 발생한다. 다른 하나는 fast mode가 표준 속도로 자동 폴백되지 않는다는 점이다. 레이트 리밋 초과 시 429 / 529로 반환되므로, 대기할 것인지 표준 속도로 재전송할 것인지를 호출 측에서 결정해 두어야 한다.
OpenAI는 2026년 6월, GPT-5.6으로서 **Sol(플래그십) / Terra(일상용 밸런스) / Luna(고속·저비용)**의 3개 모델을 프리뷰 공개했다. 당초 약 20개의 조직에 한정 제공되었으며, 일반 제공은 몇 주 후로 예정되어 있다 (OpenAI 공식 "Previewing GPT-5.6 Sol" 및 VentureBeat 등의 보도).
개발자에게 새로운 것은 두 가지 제어 방식이다. 하나는 max reasoning effort로, Sol을 통해 더 긴 "생각할 시간"을 부여하여 기다리더라도 정확도를 확보하고자 하는 난제용 새로운 노력도(effort) 제어다. 다른 하나는 ultra mode로, 단일 에이전트를 넘어 서브 에이전트(Sub-agent)를 병렬로 실행하여 복잡한 태스크를 분할하고 가속하는 모드다.
여기서 중요한 것은 개별 스코어보다 구도다. Anthropic 측도 effort 파라미터와 fast mode를 통해 "사고량"과 "속도"를 분리해 왔다. OpenAI의 max effort / ultra mode 역시 방향은 같으며, "어떤 모델을 선택할 것인가"뿐만 아니라 "얼마나 생각하게 하고, 얼마나 병렬로 실행할 것인가"가 비용과 레이턴시(Latency)를 좌우하는 설계 변수가 되었다는 의미다.
실무적으로는 에이전트를 구성할 때 "모델명을 하나 결정하고 끝"내는 것이 아니라, 태스크의 난이도에 따라 노력도(effort / reasoning effort)를 높이거나 낮추며, 정형·대량 처리는 저노력+고속, 난도가 높은 구간은 고노력+필요 시 병렬 처리와 같이 구분하여 운용하는 것이 전제가 된다. 병렬(ultra/서브 에이전트)은 빠르지만 토큰 소비가 늘어나기 때문에, 비용 산정은 "1 리퀘스트(request)"가 아니라 "1 태스크가 배후에서 모델을 몇 번 호출하는가"를 기준으로 세울 필요가 있다.
Claude Sonnet 5로 이행하기
temperature/top_p/top_k의 비기본(non-default) 지정 사항을 파악하여 삭제하거나 기본값으로 되돌리기thinking: {type: "enabled", budget_tokens: N}를thinking: {type: "adaptive"}+effort로 교체하기- 사고(thinking) 없이 동작시키고 싶은 부분은
thinking: {type: "disabled"}를 명시하기 - 토큰 카운팅(token counting)으로 프롬프트를 다시 측정하여, 약 30% 증가를 전제로
max_tokens와 비용 산정 업데이트하기 - 우선 스테이징(staging) 환경에서 테스트하여
400에러가 발생하지 않는 것을 확인한 후, 운영 환경의 모델 ID를 전환하기
fast mode (Opus) 점검하기
claude-opus-4-7+speed: "fast"사용 사례를 grep으로 검색하여 7월 24일까지 Opus 4.8로 이행하기- fast ↔ standard 전환 시의 캐시 미스(cache miss)와
429발생 시의 재전송/폴백(fallback) 방침 구현하기
추론 제어축을 설계에 포함하기
-
에이전트의 각 단계를 "노력도(저/고) × 속도 × 병렬 필요 여부"로 분류하고, 비용과 함께 구분하여 운용하기
-
"드롭인(drop-in) 방식이니까"라며 모델 ID만 교체하기. Sonnet 5는
temperature고정이나budget_tokens지정 시400에러가 발생한다. 검증 없는 일괄 교체가 가장 위험하다. -
토크나이저(tokenizer) 변경을 "가격 동결"로 오해하기. 단가는 같더라도 동일한 입력에 대해 토큰이 약 30% 증가하므로, 실제 비용과 컨텍스트(context) 소비는 늘어난다. 구형 모델에서 측정했던 산정치를 그대로 사용하지 마라.
-
fast mode가 표준 속도로 떨어질 것이라고 착각하기. Opus 4.7의 fast mode는 7월 24일 이후 폴백(fallback)되지 않고 에러가 발생한다. Opus 4.6의 동작(표준 속도로 계속 진행)과 혼동하지 마라.
-
거부 응답을 에러로 취급하기. Sonnet 5의 세이프가드(safeguard)에 의한 거부는
400이 아니라stop_reason: "refusal"인 HTTP 200이다. 예외 처리만 보고 있으면 이를 놓칠 수 있다. -
ultra(병렬)의 비용을 1 리퀘스트 단가로 산정하기. 서브 에이전트가 배후에서 여러 번 모델을 호출한다는 전제하에, 태스크 단위의 토큰 소비를 산정하라.
-
Anthropic 「Claude Sonnet 5에서 새로운 기능」 https://platform.claude.com/docs/en/about-claude/models/whats-new-sonnet-5
-
Anthropic 「Claude Platform 출시 노트 (2026년 6월 30일 Claude Sonnet 5)」 https://platform.claude.com/docs/en/release-notes/overview
-
Anthropic 「Fast mode (연구 미리보기)」 https://platform.claude.com/docs/en/build-with-claude/fast-mode
-
Anthropic 「Effort」 https://platform.claude.com/docs/en/build-with-claude/effort
-
OpenAI 「GPT-5.6 Sol 미리보기」 https://openai.com/index/previewing-gpt-5-6-sol/
-
VentureBeat 「OpenAI, GPT-5.6 Sol, Terra 및 Luna 공개」 https://venturebeat.com/technology/openai-unveils-gpt-5-6-sol-terra-and-luna-models-but-only-accessible-to-limited-preview-partners-for-now-per-us-gov
AI 자동 생성 콘텐츠
본 콘텐츠는 Qiita AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기