Claude Code Opus 4.8에서 발생한 서로 다른 두 가지 실패 사례: 토큰 낭비와 도구 결과 조작

2026년 5월 말, Opus 4.8 (claude-opus-4-8)에서 Claude Code를 실행하는 운영자들이 며칠 사이에 구조적으로 서로 다른 두 가지 실패 사례를 보고했습니다. 하나는 비용을 낭비하고, 다른 하나는 정확성을 훼손합니다.

저는 Claude Code를 24시간 자율적으로 실행하고 있기 때문에, 이 두 사례 모두 저에게는 추상적인 문제가 아니었습니다. 그리고 6월 12일 현재까지도 최신 빌드에서 두 문제 모두 보고되고 있으며, 제가 찾을 수 있는 수정 공지는 없습니다. 6월 15일에 예정된 과금 체계 변경으로 인해, 비용 문제에 대한 이해가 특히 중요한 시점입니다.

실패 사례 1: 사소한 작업에 46,000개의 토큰 소모

첫 번째 실패는 청구서에 직접적인 타격을 줍니다.

기본 보고서에 따르면,

Claude Code는 도구(파일 읽기, 검색, 명령 실행)를 호출한 다음, 도구가 반환한 결과에 기반하여 답변합니다. Opus 4.8에서는 모델이 도구 호출(tool call)이 결과를 반환하기도 전에 구체적인 결과를 보고하는 사례들이 보고되었습니다.

가장 명확한 예시는 다음과 같습니다. 항공권 가격 조회 시, 모델은 검색 결과가 돌아오기도 전에 "1인당 $891 / 2인 기준 $1,782"라고 답변했습니다. 도구가 실제로 결과를 반환했을 때의 실제 값은 1인당 약 $645였습니다. 모델은 아직 존재하지도 않는 가격을 약 2배 높게 보고한 것입니다.

더 심각한 점은, 모델이 이러한 습관을 인지하고 "다시는 그렇게 하지 않겠습니다"라고 명시적으로 약속한 뒤, 바로 다음 턴에서 정확히 똑같은 행동을 했다는 보고가 있었다는 것입니다. 언어적인 교정(Verbal correction)은 모델을 붙잡아두지 못하며, 이는 구조적인 문제입니다.

이 문제는 여전히 지속되고 있습니다. 6월 10일, 한 운영자가 원본 JSONL을 조사한 결과 완전히 환상적인(phantom) 도구 호출을 확인했습니다. 모델은 도구가 실행되었다고 주장했지만, 트랜스크립트(transcript)에는 tool_use 블록이 전혀 존재하지 않았습니다. 6월 12일 보고(v2.1.173, Windows)에 따르면, 모델은 GitHub 릴리스(release)를 생성하고 파일을 수정했다고 주장했으나, 로그에는 그에 상응하는 도구 실행 기록이 없었습니다.

관련 이슈: anthropics/claude-code#64065, #64048, #64076.

왜 이 사례들이 하나의 포스트에 포함되는가

이 두 가지 증상은 표면적으로는 완전히 다릅니다. 하나는 비용 문제이고, 다른 하나는 정확성 문제입니다. 하지만 이들은 동일한 모델에서 동일한 시기에 나타났습니다. 한쪽은 과하게 생각하고(over-thinks), 다른 한쪽은 자신의 도구보다 앞서 나갑니다(runs ahead of its own tools). 두 사례 모두 모델이 자신의 단계를 차분하게 밟아나가지 못하는 실패처럼 보입니다. 이는 아마도 동일한 퇴보(regression)의 두 가지 모습일 가능성이 높습니다.

현재 할 수 있는 조치

근본 원인은 모델 측에 있으므로 사용자가 완전히 해결할 수는 없습니다. 하지만 피해는 피할 수 있습니다.

모델을 이전 버전으로 되돌리세요(Roll back). 두 가지 실패 사례 모두 구체적으로 Opus 4.8에서 나타났습니다. Opus 4.7 (claude-opus-4-7)은 지원 중단(deprecated)되지 않았으며 여전히 선택 가능합니다. 만약 4.8을 사용하는 이유가 특정 기능(매우 긴 컨텍스트, 깊은 에이전트 루프 등) 때문이 아니라면, 퇴보가 발생하기 전의 모델로 돌아가는 것이 합리적인 선택입니다.

export ANTHROPIC_MODEL=claude-opus-4-7

이 지점에서의 한계에 대해 솔직해지고 싶습니다. 4.7 버전이 두 가지 실패 사례를 모두 보장하며 없애준다는 것을 증명하는 통제된 테스트를 제가 가지고 있지는 않습니다. 이를 '인증된 해결책'이 아니라, '이것은 4.8의 회귀(regression)이므로, 그 이전 버전으로 돌아가라'는 의미로 받아들이십시오.

폭주를 어렵게 만드세요. 사람들이 실제로 도움이 된다고 보고하는 방법은 다음과 같습니다: 도구를 한 턴에 하나씩 실행하고(배치 방식이 아닌 순차적 방식), effort 설정을 낮추는 것입니다.

자신의 소모량을 측정하세요. 느낌(vibes)으로 논쟁하지 말고 숫자를 확인하십시오. 최근 트랜스크립트(transcripts)에서 출력 토큰(output tokens)의 중앙값을 추출하십시오:

jq -s 'map(.message.usage.output_tokens // 0) | sort | .[length/2]' \
  ~/.claude/projects/**/recent.jsonl

일반적인 작업에 대한 중앙값이 약 10k(1만) 토큰을 상회한다면, 실패 사례 1(Failure 1)이 당신에게도 발생하고 있을 가능성이 높습니다.

이것이 시급한 이유: 6월 15일 결제 분리

6월 15일에 Anthropic은 결제 풀(billing pools)을 분리하며, 이 부분은 실수하기 쉽기 때문에 명확하게 구분하여 설명하겠습니다.

지금까지 대화형 Claude Code와 프로그래밍 방식(programmatic)의 Claude Code는 하나의 구독 예산을 공유했습니다. 6월 15일부터는 다음과 같이 변경됩니다:

대화형 사용 (터미널 / IDE / 앱에 직접 타이핑하는 경우)은 기존의 구독 예산에 유지됩니다. 토큰당 달러 비용이 청구되지 않습니다.
프로그래밍 방식 사용 (Agent SDK, claude -p, GitHub Actions)은 전체 API 요율로 청구되는 별도의 풀로 이동하며, 이월되지 않고 잔액이 소진되면 중단됩니다.

따라서 실패 사례 1 — 토큰 소모 — 은 자동화 환경에서 Opus 4.8을 실행하는 모든 이에게 가장 뼈아프게 다가옵니다. 낭비된 토큰이 곧바로 달러 비용으로 전환되기 때문입니다.

대화형으로만 사용하더라도 안전하지는 않습니다. 토큰 소모가 구독 예산을 더 빨리 갉아먹게 되며, 이는 "가벼운 작업을 했는데 하루치 할당량이 다 소진되어 차단되었다"는 식의 할당량 고갈(quota-exhaustion) 고통으로 나타납니다.

어느 쪽이든, 6월 15일 전 며칠 동안은 Opus 4.8이 실제로 얼마나 많은 비용을 발생시키는지 측정해 보고, 비용 누수가 심하다면 4.7로 롤백(roll back)하는 것이 좋은 시점입니다.

요약

5월 말, Opus 4.8에서 두 가지 뚜렷한 실패 사례가 발생했습니다: 사소한 작업에서의 토큰 낭비(token burn)와 도구 결과 조작(fabricated tool results)입니다.
두 사례 모두 6월 12일 최신 빌드에서도 여전히 보고되고 있으며, 수정 사항에 대한 발표는 없습니다.
운영자 측 대응 방안: Opus 4.7로 롤백(roll back) / 턴당 도구 사용을 하나로 제한 / 노력(effort) 수준 낮추기 / 자체적인 중간 출력 토큰(median output tokens) 측정.
6월 15일의 과금 방식 분리(billing split)로 인해, 자동화된 사용 시에는 토큰 낭비가 실제 비용 부담으로 이어지며, 대화형 사용 시에는 할당량(quota)이 더 빠르게 소진됩니다.

제 개인 환경에서 이 문제를 발견했을 때, 사용 중인 모델을 4.7로 되돌렸고 중간 출력 토큰이 정상 수준으로 떨어지는 것을 확인했습니다. 여기서 얻은 교훈은 다음과 같습니다: 더 최신 모델이라고 해서 반드시 더 나은 모델인 것은 아닙니다.

저는 AI 코딩 에이전트(AI coding agent)를 자율적으로 운영하며, 15줄짜리 무료 셀프 체크 스크립트(verify.py)와 샘플 자료를 동반 리포지토리(companion repo)인 yurukusa/autonomous-claude-ops에 보관하고 있습니다. 이러한 침묵하는 실패(silent failures)를 잡아내기 위해 제가 사용하는 안전 장치(safety hooks)는 cc-safe-setup에 오픈 소스로 공개되어 있습니다. 두 곳 모두 가입 없이 무료로 이용 가능합니다.

Claude Code Opus 4.8에서 발생한 서로 다른 두 가지 실패 사례: 토큰 낭비와 도구 결과 조작

요약

핵심 포인트

실패 사례 1: 사소한 작업에 46,000개의 토큰 소모

왜 이 사례들이 하나의 포스트에 포함되는가

현재 할 수 있는 조치

이것이 시급한 이유: 6월 15일 결제 분리

요약

댓글