지난달 LLM 청구서가 4배 급증한 이유: 작업별 정밀 분석

2026년 4월 Vantage의 분석에 따르면, 이제 토큰당 가격(per-token price)은 더 이상 핵심 레버가 아닙니다. 핵심은 작업당 (per task) 토큰 수입니다. Fortune은 5월에 Microsoft 스스로도 이제 실적 발표(earnings calls)에서 이 점을 드러내고 있다고 보도했습니다. Goldman의 가장 최근 전망에 따르면, 거의 전적으로 에이전트 워크로드 (agentic workloads)에 의해 2030년까지 토큰 소비량이 24배 증가할 것이라고 합니다.

인프라 벤더들(LangSmith, Helicone, Portkey, Langfuse)은 여러분에게 대시보드를 판매합니다. 대시보드는 괜찮습니다. 하지만 여러분이 분노해야 할 항목이 바로 여러분의 관측성 스택 (observability stack)이 "성공적인 도구 호출 (successful tool call)"이라고 부르는 항목이라는 사실은 알려주지 않을 것입니다.

이것은 2분기 청구서를 받고 무언가 잘못되었다고 느낀 모든 이들에게 제가 제시하고자 하는 관점입니다. 이것은 벤더 비교가 아닙니다. 오후 한나절이면 수행할 수 있는 정밀 분석 (forensic read)입니다.

아무도 주목하지 않는 형태

대부분의 팀은 세 가지를 측정합니다:

LLM 호출 (프롬프트 토큰, 완료 토큰, 지연 시간 (latency))
도구 호출 (어떤 함수인지, 어떤 인자인지, 무엇을 반환했는지)
비용 (대시보드 차트, 때로는 사용자 또는 기능과 연결됨)

이 세 가지는 네 가지 인기 있는 관측성 플랫폼(observability platforms)에 모두 존재합니다. 네 플랫폼 모두 도구가 200 상태 코드를 반환하면 결과 (outcome) 를 초록색으로 표시합니다. 하지만 결과가 곧 결과는 아닙니다. 진짜 결과는 세상(실제 환경)이 의도와 일치했는지 여부입니다.

추가하기에 가장 저렴한 두 가지 신호이자, 최악의 비용 누수를 잡아낼 수 있는 두 가지 신호는 거의 어떤 스택에서도 기본적으로 제공되지 않는 것들입니다:

모든 부수 효과(side-effecting)를 동반하는 도구 호출(tool call) 전의 의도 라인 (intent line). 평이한 영어로 작성합니다. "Acme 사에 5월 인보이스에 대한 14일 후 후속 이메일을 보내라." 만약 로그 아카이브에서 이 라인을 읽을 수 없다면, 당신의 에이전트가 무엇을 하려고 했는지 전혀 알 수 없습니다. 비용이 급증할 때, 에이전트가 단순히 수다스러웠던 것인지 아니면 어둠 속에서 루프(loop)를 돌고 있었던 것인지를 알려주는 것이 바로 이 의도 라인입니다.
모든 부수 효과를 동반하는 도구 호출 후의 결과 단언 라인 (outcome assertion line). "SendGrid로부터 200 OK 수신"이 아니라, 비즈니스 결과여야 합니다. "Acme의 인보이스가 원장(ledger)에서 실제로 결제 완료로 표시됨." 이메일 API의 녹색 200 응답이 고객이 이메일을 읽었다는 것을 의미하지는 않습니다. Stripe 호출의 200 응답이 구독 상태가 변경되었음을 의미하지도 않습니다. 4배 급증을 잡아내는 것은 바로 이 라인입니다. 4배 급증은 거의 항상 "앞선 세 번의 호출 중 어느 것도 결과를 단언(assert)하지 못했기 때문에 에이전트가 동일한 작업을 4번 반복했다"는 결과로 나타납니다.

익명화된 실제 사례

2026년 1분기에 한 창업자가 저에게 세션 로그를 보내왔습니다. 에이전트가 가동된 지 9일째였습니다. 총 지출액: $11,400. 평균 작업량: 2,800 토큰. 그의 스택은 Helicone이었습니다. 대시보드상으로는 모든 것이 정상으로 나타났습니다. 분당 작업 수: 안정적. 작업당 비용: 안정적. p95 지연 시간(latency): 4초 미만.

포렌식 분석(forensic read)에는 약 40분이 소요되었습니다. 세 가지 사실이 동시에 존재했습니다:

에이전트의 도구 호출 중 11%가 결과 단언(outcome assertion)이 없었습니다. 이들은 이메일, CRM 업데이트, 캘린더 기록 등 — 작업을 수행했는지 여부와 상관없이 200 응답을 반환하는 모든 것들이었습니다.
에이전트 작업의 4.2%가 동일한 도구 호출을 3회 이상 재시도했습니다. Helicone은 각 개별 호출이 200을 반환했기 때문에 이를 "성공적인 재시도(successful retries)"라고 불렀습니다. 에이전트는 조용히 루프를 돌고 있었던 것입니다.
재시도 패턴만으로 $11,400 중 $4,800을 차지했습니다. 이것이 인보이스에 찍힌 4배 급증의 원인이었습니다.

이 중 그 어떤 것도 대시보드에서는 보이지 않았습니다. 오직 원시 로그 아카이브(raw log archive)에서만 확인할 수 있었습니다. 해결책을 마련하는 데는 엔지니어 한 명이 하루면 충분했습니다. 의도 라인과 결과 단언 라인을 추가하고, 다음 단계가 실행되기 전에 결과를 단언하는 6줄짜리 체크 로직을 추가하는 것이었습니다.

오후의 업무 모습

벤더(vendor)는 필요 없습니다. 부수 효과(side-effecting)가 발생하는 모든 도구 호출(tool call)에 다음과 같은 한 줄의 JSONL 추가(append)가 필요할 뿐입니다:

{"ts": "...", "step_id": "...", "intent": "Acme사에 5월 인보이스에 대한 14일 후속 메일 발송", "tool": "send_email", "args_hash": "...", "outcome_assertion": "ledger.invoice_marked_paid(acme, may)", "outcome": "pass"}

로그 아카이브(log archive)에 이 데이터를 2주간 쌓으면 포렌식(forensic) 분석이 가능한 표면이 형성됩니다. 세 가지 쿼리(query)만으로 돈이 어디로 새고 있는지 알 수 있습니다:

# 1. 결과 단언(outcome assertion)이 없는 부수 효과 호출은 몇 개인가?
jq 'select(.tool != null and .outcome_assertion == null)' logs.jsonl | wc -l

...

세 번째 쿼리는 토큰 소모량(token spend) 기준으로 최악의 작업 10개를 출력하는 쿼리입니다. 위의 감사(audit) 결과, 상위 3개는 모두 동일한 CRM 쓰기 작업의 재시도(retry)였습니다. 단언(assertion)이 누락되었기 때문입니다. 이 재시도 패턴만 제거했어도 전체 청구 금액의 약 43%를 절감할 수 있었을 것입니다.

엔지니어링 리더를 위한 관점

이것이 특히 2026년에 중요한 이유는 다음과 같습니다. 토큰당 가격(per-token price)은 조절 레버(lever)가 아닙니다. '작업당 토큰 소모량(token consumption per task)'이 핵심입니다. 그리고 2026년형 실패 모델은 단언 계층(assertion layer)이 누락되어 에이전트(agent)가 조용히 같은 작업을 3~4번 반복하는 형태입니다. 모든 에이전트 프레임워크(agent framework)는 호출 엔벨로프(call envelope)를 제공하지만, 단언(assertion)을 제공하는 곳은 거의 없습니다. 이 격차는 도구의 문제가 아니라, 사람이 읽을 수 있는 계층(human-read layer)의 문제입니다.

자신의 로그 아카이브를 더 깊이 분석하고 싶다면 — 즉, 가장 비용이 많이 드는 형태는 무엇인지, 가장 작은 수정 사항은 무엇인지, 하루 만에 무엇을 할 수 있는지 알고 싶다면 — LLM 청구서 분류 심층 보고서(LLM Bill Triage deep report)가 있습니다. 가격은 299달러이며, 영업일 기준 5일 이내에 전달되며, 한 페이지 분량의 "월요일에 해야 할 일" 처방전으로 마무리됩니다. 위 감사 스크립트의 처음 10분 분량은 무료로 읽을 수 있으며, 나머지는 제가 1분기(Q1) 이후 검토한 30개 이상의 운영 아카이브(production archives)를 통한 패턴 매칭(pattern-matching) 결과입니다.

지난 인보이스의 마지막 줄은 당신에게 무언가를 말하고 있습니다. 당신은 그 내용을 읽기 위해 로그 아카이브에서 올바른 두 개의 컬럼(column)만 찾으면 됩니다.

지난달 LLM 청구서가 4배 급증한 이유: 작업별 정밀 분석

요약

핵심 포인트

지난달 LLM 청구서가 4배 급증한 이유: 작업별 정밀 분석

아무도 주목하지 않는 형태

익명화된 실제 사례

오후의 업무 모습

엔지니어링 리더를 위한 관점

댓글