당신의 AI 에이전트 비용은 아마도 필요 이상으로 10배에서 700배 더 높을 것입니다

월 $300의 파일럿 프로젝트. $215,000의 운영 비용. 티켓당 평균 턴(turn) 수가 1.3회에서 9.3회로 증가. 코드 변경 없음. 동일한 모델. 동일한 프롬프트(prompt). 이것이 어떻게 가능하며, 문제를 발견하기 전의 곡선은 실제로 어떤 모습일까요?

2026년 3월에서 5월 사이에 발표된 두 소식통은 서로 다른 각도에서 동일한 조사 결과를 제시합니다:

RocketEdge (2026년 3월 15일) — "당신의 AI 에이전트 비용은 필요 이상으로 30배 더 높습니다" — 가드레일(guardrails)이 전혀 없는 상태에서 에이전트가 단일 과금 주기 동안 $47,000에서 $1,200,000를 소진한 사례들을 기록했습니다.
Predict / Medium (2026년 5월 20일) — "AI 에이전트 비용: 운영 비용이 파일럿 비용보다 10배 더 높은 이유" — 작동하던 파일럿 프로젝트를 비용 위기로 몰아넣는 5가지 메커니즘을 설명하며, 최악의 경우 717배에 달한다고 밝혔습니다.

오타가 아닙니다. 파일럿 비용의 717배입니다. 메커니즘은 평범합니다. 하지만 그 수학적 결과는 용서받기 어렵습니다.

이 글에서는 이를 유발하는 5가지 메커니즘, 모든 운영 비용에 대해 던져야 할 3가지 포렌식 질문, 그리고 오늘 밤 바로 실행해 볼 수 있는 30분 자가 점검에 대해 다룹니다. 제품 홍보나 벤더의 프레임워크는 없습니다. 오직 진단만이 있을 뿐입니다.

5가지 메커니즘 (수식 포함)

이 각각은 제가 실제 운영 트레이스(production traces)에서 발견한 메커니즘입니다. 명칭은 제가 임의로 붙였습니다. 단순하지 않은 에이전트를 첫 달 이상 운영해 본 사람이라면 그 형태가 익숙할 것입니다.

1. 재귀적 자기 수정 루프 (Recursive self-correction loops) ($47,000의 조용한 소진)

에이전트가 하위 작업(sub-task)에 실패합니다. 재시도합니다. 다시 실패합니다. 약간 다른 프롬프트(prompt)로 다시 시도합니다. 예산이 바닥나거나 작업 추적기(task tracker)가 마침내 타임아웃(timeout)될 때까지 반복합니다.

당신이 보는 것: 평탄하고 건강해 보이는 상단 비용 선.
실제로 일어나고 있는 일: 제가 읽은 사례들에 따르면 세션의 아주 작은 부분 — 0.3%에서 4% — 이 재시도 폭풍(retry storms) 속에서 **전체 비용의 30~60%**를 잡아먹고 있습니다.

가장 저렴한 진단 방법: 지난 30일간의 LLM 로그를 추출하여 session_id별로 그룹화하고, 총 토큰(total tokens) 기준으로 내림차순 정렬한 뒤 상위 1%의 세션을 살펴보세요. 만약 그중 하나라도 중앙값(median) 세션 토큰보다 20배 이상 많다면, 루프(loop)가 발생한 것입니다.

2. 무제한 도구 호출 (Unbounded tool-calling) (717배 사례)

검색 도구, 코드 실행 도구, 파일 시스템 도구에 접근할 수 있으면서 단계별 제한(per-step cap)이 없는 ReAct 스타일의 에이전트가 있다고 가정해 봅시다. 각 단계는 저렴합니다. 하지만 각 단계는 에이전트가 스스로 멈출 수 없는 "하나만 더 확인해 볼게요"라는 반사 작용을 유발합니다.

717배 사례: 초기 예산이 1,200건의 티켓당 월 $300로 예상되었던 고객 지원 에이전트가 있었습니다. 실제 운영 첫 달 비용은 $215,000였습니다. 이 에이전트는 "사용자 신원 확인" 도구를 호출할 수 있다는 것을 발견했고, 확인 도구의 응답이 두 번의 후속 호출("관련 계정은요?", "주문 내역은요?")을 유도했습니다. 티켓당 평균 턴(turn) 수는 파일럿 테스트 당시 1.3회였으나, 실제로는 9.3회로 늘어났습니다. 곡선의 형태는 정상 작동하던 파일럿과 동일했지만, 그 깊이가 재앙을 초래했습니다.

가장 저렴한 진단 방법: turns_per_session의 히스토그램을 확인하세요. 파일럿의 P95(95퍼센타일)가 3턴이었는데 운영 환경의 P95가 11턴이라면, 곡선이 이동한 것입니다. 그리고 청구서도 함께 이동했습니다.

3. 컨텍스트 채우기 (Context-stuffing) ("기억"이라고 부르지만 실제로는 아닌 것)

이제 모든 프레임워크는 "메모리(memory)" 또는 "컨텍스트 관리자(context manager)"를 탑재하여 출시됩니다. 대부분은 기본적으로 추가 전용(append-only) 방식입니다. 대화의 마지막 47개 턴을 "기억"하는 에이전트는 이후의 모든 턴마다 그 내용을 다시 비용을 지불하며 읽어 들입니다.

파일럿 계산: 47개 턴 × 800개 토큰 = 37,600개 컨텍스트 토큰. 일반적인 프런티어 모델(frontier model)의 입력 비용 $3/1M(100만 토큰당 3달러) 기준 = 턴당 $0.11. 이 정도면 괜찮습니다.

운영 계산: 동일한 에이전트, 동일한 47개 턴이지만, 누군가 2월에 "도움이 되는" 섹션 세 개를 추가한 뒤 삭제하지 않아 시스템 프롬프트(system prompt)가 1,200개 토큰에서 18,000개 토큰으로 늘어났습니다. 턴당 $0.38. 이를 월 30,000건의 티켓에 곱하면, $2,400이 아닌 월 $8,400이 됩니다. 에이전트는 변하지 않았습니다. 청구서가 세 배로 뛴 것입니다.

가장 저렴한 진단 방법: 실제 운영 세션 하나를 가져와서, 30번째 턴(turn 30)에 모델로 전송되는 전체 프롬프트(prompt)를 덤프(dump)하고 토큰(token) 수를 세어보세요. 만약 그 수가 1번째 턴(turn 1)의 시스템 프롬프트(system prompt)보다 3배 이상 많다면, 컨텍스트 스터핑(context-stuffing)이 발생하고 있는 것입니다.

4. "필터링하는 것을 잊었다" 로그

이것은 기계적인 문제입니다. 새로운 엔지니어가 빈번하게 실행되는 경로(hot path)에 상세한 디버그 로그(debug log)를 추가합니다. 로그에는 "만약을 대비해" 전체 메시지 기록이 포함됩니다. 이 로그는 또한 수집된 토큰당 비용을 부과하는 제3자 관측성(observability) 도구로 전송됩니다. 아무도 6주 동안 이를 알아차리지 못합니다.

이것은 수정하기에는 가장 저렴한 메커니즘이지만, 찾아내기에는 가장 비싼 메커니즘입니다. 왜냐하면 비용이 LLM 청구서에 나타나는 것이 아니라, 관측성(observability) 청구서, 데이터 송출(data-egress) 청구서, 또는 스토리지(storage) 청구서에 나타나며, LLM 비용을 검토하는 팀은 이 둘을 결코 연결 짓지 못하기 때문입니다.

가장 저렴한 진단 방법: 에이전트를 출시한 이후 몇 달간의 **비(非) LLM 클라우드 세부 항목(non-LLM cloud line items)**을 재무 팀에 요청하세요. 만약 관측성(observability) 청구서가 4배 증가했는데 LLM 청구서는 1.4배만 증가했다면, 로깅 누수(logging leak)가 발생한 것입니다.

5. 모델 불일치 ("괜찮은" 수준의 1.5배~2배)

프런티어 모델(frontier model)로 기능을 출시합니다. 잘 작동합니다. 운영 환경에서도 프런티어 모델을 그대로 유지합니다. 6개월 후, 프롬프트(prompt)는 40번 수정되었고, 유스케이스(use case)는 이제 볼륨이 큰 좁은 범위의 작업(narrow task)이 되었지만, 프런티어 모델은 여전히 800토큰짜리 질문에 대해 4,000토큰짜리 사고 블록(thinking blocks)을 사용하여 답변하고 있습니다. 모델이 원래 그렇게 설계되었기 때문입니다.

출력 토큰 비율(output-token ratio)이 단서입니다. 좁은 범위의 작업에서 출력 대 입력 비율(output : input ratio)이 1.0 이상이라면, 필요하지 않은 성능을 위해 1.5배에서 2배를 더 지불하고 있는 것입니다. 2단계 폴백(2-tier fallback)(어려운 작업은 프런티어 모델, 쉬운 작업은 미니 모델)을 사용하면 측정 가능한 품질 저하 없이 일반적으로 이 범주의 지출을 50~70% 줄일 수 있습니다. 왜냐하면 좁은 범위의 작업은 정의상 범위가 좁기 때문입니다.

세 가지 포렌식 질문

만약 당신에게 30분의 시간과 지난 30일간의 LLM 청구서에 대한 접근 권한이 있다면, 이 세 가지 질문이 낭비의 80%를 식별해낼 것입니다.

세션 토큰(session-token)의 P99 / 세션 토큰 중앙값(median) 비율은 얼마입니까? 만약 P99가 중앙값보다 20배 이상 높다면, 메커니즘 1 또는 2가 발생하고 있는 것입니다.
프로덕션(production) 프롬프트 토큰(prompt-token) 평균과 파일럿(pilot) 프롬프트 토큰 평균의 차이는 얼마입니까? 프로덕션이 파일럿보다 2배 이상 높다면, 메커니즘 3이 발생하고 있는 것입니다.
세션 중 프론티어 모델(frontier model)을 사용하는 비율과 소형 모델(smaller model)을 사용하는 비율은 각각 어떻게 되며, 프론티어 모델의 비율이 증가하고 있습니까? 만약 그렇다면, 메커니즘 5가 발생하고 있거나 항상 비싼 옵션을 선택하는 라우팅(routing) 버그가 있는 것입니다.

만약 세 질문 모두에 대한 답변이 "모르겠다"라면, 그것이 가장 비용이 적게 드는 첫 번째 해결책입니다. 이 질문에 답하기 위해 벤더 플랫폼(vendor platform)이 필요한 것은 아닙니다. CSV 내보내기 파일과 30분의 시간만 있으면 됩니다.

30분 셀프 체크 (오늘 밤 바로 실행하세요)

1단계 (5분): 지난 30일간의 LLM 사용량을 세션별로 그룹화하여 내보내기(export) 하세요. 어떤 도구를 사용해도 상관없습니다.

2단계 (5분): 세션 토큰의 P50, P95, P99를 계산하세요. 만약 P99 > 20× P50 이라면, 플래그(flag)를 표시하세요.

3단계 (5분): 지출액이 가장 높은 상위 10개 세션을 선정하세요. 각 세션의 턴(turn) 수를 세어보세요. 만약 15턴을 초과하는 세션이 있다면, 마지막 5개 턴을 읽어보세요. 루프(loop)가 발생하는 지점은 거의 항상 그곳입니다.

4단계 (5분): 프로덕션 세션 하나를 골라, 30번째 턴의 프롬프트를 추출하고 토큰 수를 세세요. 이를 1번째 턴과 비교하세요.

5단계 (5분): 지출액 기준 상위 20개 세션에 대해 출력 대 입력 비율(output : input ratio)을 계산하세요. 이 비율이 1.0보다 크다면, 모델 불일치(model-mismatch) 후보가 있는 것입니다.

6단계 (5분): 답변을 적으세요. 적는 행위 자체가 진단입니다. 대부분의 팀은 조사를 시작한 지 30분 이내에 다섯 가지 메커니즘 중 최소 하나를 발견합니다.

제가 299달러에 해드리는 것 (그리고 하지 않는 것)

셀프 체크를 수행했는데 결과가 처참하거나, 혹은 CSV 파일을 사람에게 전달하고 24시간 이내에 서면 진단서를 받고 싶다면, 저는 299달러의 고정 비용으로 LLM 청구서를 분석해 드립니다. 저는 다음과 같은 내용이 담긴 **포렌식 보고서(forensic report)**를 보내드립니다:

귀하의 실제 데이터(템플릿이 아님)에서 식별된 5가지 메커니즘
각 항목별 예상 월간 절감액이 포함된 우선순위별 수정 목록
상위 3개 항목에 대한 복사-붙여넣기 가능한 가드레일(guardrail) 설정 (세션당 토큰 제한(per-session token cap), 라우팅 규칙(routing rule), 컨텍스트 압축 스니펫(context-compaction snippet))

제가 하지 않는 것: 귀하의 관측성 플랫폼(observability platform)을 대체하지 않습니다. 대시보드를 판매하지 않습니다. 귀하의 절감액 중 일부를 수수료로 받지 않습니다. 귀하의 데이터를 보유하지 않습니다. 결과물은 PDF이며, CSV 파일은 귀하가 보유하며, 299달러가 유일한 거래입니다.

위의 자가 점검만으로 충분하다면, 저에게 지불할 것은 없습니다. 이 글 자체가 제품입니다.

전문가의 검토를 원하신다면: https://www.miloantaeus.com/llm-bill-triage.html — 해당 페이지에 접수 양식, 샘플 포렌식 보고서(forensic report), 그리고 24시간 서비스 수준 협약(SLA)이 있습니다. 먼저 샘플을 읽어보십시오. 만약 귀하의 청구서가 샘플과 다르게 생겼다면, 아직은 제가 필요하지 않을 것입니다.

가장 저렴한 90초의 승리 (단 한 가지만 한다면)

세션당 토큰 제한(per-session token cap)을 추가하십시오. 어떤 프레임워크든 10줄 내외로 구현할 수 있습니다. 귀하의 파일럿 테스트 P95 세션 토큰의 3배에 해당하는 숫자를 선택하십시오. 이 제한은 정상적인 세션에서는 작동하지 않습니다. 그렇지 않으면 청구서의 30%를 잡아먹을 0.3%의 세션에서만 작동할 것입니다. 이 제한 하나만으로도, 이를 설정하지 않은 팀의 경우 평균적으로 월간 LLM 지출을 2~4배 감소시킬 수 있습니다.

오늘 밤 이 제한 하나만 적용하더라도, 귀하는 커피 한 잔 값보다 더 큰 가치를 이 글에서 얻은 것입니다. 나머지 진단은 정교화 과정일 뿐입니다.

60초 복사-붙여넣기 가드레일 (상위 3개 메커니즘용)

단 하나의 수정 사항만 적용할 시간이 있다면, 메커니즘 1의 세션당 토큰 제한을 적용하십시오. 한 시간의 여유가 있다면, 세 가지 모두 적용하십시오.

세션당 토큰 제한 (메커니즘 1)

어떤 프레임워크든 약 10줄 내외로 이를 강제할 수 있습니다. LangGraph/CrewAI/AutoGen 래퍼(wrapper)를 위한 의사 코드(Pseudo-code)는 다음과 같습니다:

SESSION_TOKEN_LIMIT = 200_000  # 파일럿 P95의 3배로 조정

def cap_session(state):
...

단계별 도구 호출 제한 (메커니즘 2)

MAX_TOOL_CALLS_PER_TURN = 3

def step(state):
...

N번째 턴 전 컨텍스트 압축 (메커니즘 3)

COMPACT_AFTER_TURN = 20

def maybe_compact(state):
...

이 각각의 조치들은 롤백 계획 (rollback plan)을 포함하여 30분 내에 배포 가능한 수준입니다. 세션당 제한 (per-session cap) 설정만으로도, 이를 적용하지 않은 팀의 경우 월간 LLM 지출을 통상 2~4배 절감할 수 있습니다.

출처

RocketEdge, "Your AI Agent Bill Is 30x Higher Than It Needs to Be: The 6-Tier Fix," 2026년 3월 15일 — https://rocketedge.com/2026/03/15/your-ai-agent-bill-is-30x-higher-than-it-needs-to-be-the-6-tier-fix/
Predict / Medium, "AI Agent Bills: Why Production Costs 10x Your Pilot," 2026년 5월 20일 — https://medium.com/predict/ai-agent-cost-explosion-the-10x-production-problem-c1c191877053
DigitalApplied, "Why 88% of AI Agents Fail Production," 2026년 — https://www.digitalapplied.com/blog/88-percent-ai-agents-never-reach-production-failure-framework
Codingscape, "Build Production-Ready AI Agents in 2026 (Without Deleting Your Database)," 2026년 — AWS Kiro / Cost Explorer 13시간 장애, 2025년 12월
Gartner, "Don't Let AI Agents Burn Your Budget," 2026년 3월 1일

당신의 AI 에이전트 비용은 아마도 필요 이상으로 10배에서 700배 더 높을 것입니다: 5가지 메커니즘에 대한 포렌식 분석

요약

핵심 포인트