주말 동안 AI 에이전트의 토큰 비용을 62% 절감했습니다. 그 증거를 공개합니다.

제 에이전트는 200줄짜리 스크립트가 무료로 수행할 수 있는 일을 하는 데 5.40달러를 썼습니다. 그 후 저는 주말을 투자해 이를 수정했고, 동일한 워크플로우(workflow)를 실행당 2.05달러로 낮췄습니다. 측정 가능한 품질 저하 없이 62%를 절감한 것입니다. 실제 프롬프트 차이(diffs)와 중요한 벤치마크(benchmarks)를 포함한 상세 내역은 다음과 같습니다.

시작점: 단일 에이전트, 세 가지 습관, 월 847달러

제가 가장 많이 실행하는 에이전트는 '조사 및 요약(research-and-summarize)' 루프입니다. 웹을 검색하고, 약 20페이지를 스크레이핑(scraping)하며, 구조화된 요약 초안을 작성하고, 파일을 씁니다. 별것 아닌 것처럼 들리지만, 청구서는 달랐습니다.

세 가지 요소가 조용히 토큰을 낭비하고 있었습니다:

청킹(chunking) 없는 전체 페이지 스크레이핑. 저는 5만 자에 달하는 페이지 전체를 컨텍스트 윈도우(context window)에 쏟아부은 다음, 모델에게 관련 있는 2,000자만 추출하라고 요청했습니다. 이는

이전 시스템 프롬프트(system prompt): 1,180 토큰.
새로운 프롬프트: 440 토큰.

성공 요인은 무언가를 추가한 것이 아니라, 중복을 제거한 데 있었습니다. 다음 세 가지가 삭제되었습니다:

재진술된 도구 설명 (Re-stated tool descriptions). 모델은 이미 web_search가 무엇을 하는지 알고 있습니다. 짧은 한 줄이면 충분합니다.
"단계별로 생각하기 (Think step-by-step)" 상용구. 이는 이제 더 나은 추론 모델(reasoning models)의 기본 동작이므로, 모델에게 이를 상기시키기 위해 비용을 지불할 필요가 없습니다.
모델이 이미 따르고 있는 스타일 가이드 (Style guides). "간결하게 작성할 것", "마크다운(markdown)을 사용할 것", "출처를 인용할 것" — 이 중 대부분은 모델의 학습(training) 과정에 이미 내재되어 있습니다. 이를 반복하는 것은 매 호출(call)마다 토큰 비용을 발생시킵니다.

동일한 50개 작업 평가 스위트(eval suite)를 전후로 실행했습니다. 출력 품질은 통계적으로 구별할 수 없을 정도였습니다. 호출당 절약된 740 토큰은 제 사용량 기준으로 월 약 180달러의 비용 절감으로 이어졌습니다.

3. 멀티 모델 라우팅 (Multi-model routing): GPT-5.4가 항상 정답은 아니다

이것이 단일 항목 중 가장 큰 성과였습니다. 저는 에이전트의 단계를 세 가지 계층으로 나누었습니다:

단계	이전 모델	새로운 모델	호출당 비용
청크에서 핵심 사실 추출	GPT-5.4	Claude 4 Sonnet	$0.003 → $0.0008
...

추론 계층(reasoning-tier) 모델은 합성(synthesis) 단계에만 관여합니다. 그 외의 모든 작업은 추출 작업(extractive work)에 충분히 뛰어난, 더 저렴하고 빠른 모델에서 실행됩니다.

15줄로 구현된 라우팅 로직(Routing logic):

def route(step):
    if step.requires_reasoning:
        return "gpt-5.4"      # 합성, 계획, 판단 호출
...

실제로 중요했던 벤치마크 (The benchmarks that actually mattered)

저는 품질에 대해 직관만 믿지 않았습니다. 세 가지 서로 다른 평가 기준(rubrics)을 사용하여 50개 작업 평가 스위트를 실행했습니다:

사실 정확도 (Fact accuracy) (실제 정답(ground truth) 대 에이전트 출력, 인용을 포함한 LLM-as-judge에 의해 점수 산정)
인용 범위 (Citation coverage) (소스 URL로 추적 가능한 주장(claims)의 비율)
사용자 만족도 (User satisfaction) (지난 30일간의 제 자체 검토를 통한 이진(binary) 추천 여부)

수치 비교, 전 vs 후:

지표 (Metric)	이전 (Before)	이후 (After)	변화 (Change)
작업당 비용 (Cost per task)	$5.40	$2.05	-62%
...

인용 범위 (Citation coverage)는 '청크 후 추출 (chunk-then-extract)' 방식이 모델에게 인용할 수 있는 더 깨끗한 근거를 제공하기 때문에 _상승_했습니다. 지연 시간 (Latency)은 더 작은 모델들이 더 빠르게 응답하기 때문에 감소했습니다. 사실 정확도 (Fact accuracy)는 변화가 없었습니다(a wash) — 이는 품질을 해치지 않으면서 비용을 절감하는 것이 목적이었으므로, 바로 당신이 원하는 결과입니다.

만약 오늘 다시 시작한다면 다르게 할 점

투자 대비 수익률 (ROI) 순서대로 세 가지를 꼽겠습니다:

작업당 토큰 예산 (token budget)을 하드코딩으로 추가할 것. 에이전트의 소모율 (burn rate)이 작업당 $X를 초과하면, 즉시 중단하고 부분적인 결과 (partial result)를 반환하세요. 이 단 한 줄의 가드레일 (guardrail) 로직은 그 어떤 프롬프트 수정 (prompt tweak)보다 가치가 높습니다.
공격적으로 캐싱 (Cache)할 것. 이전에 가져오거나 추출한 것이라면 무엇이든 재사용 비용이 들지 않습니다. 저는 매 실행마다 동일한 URL을 다시 스크래핑하고 있었습니다. 추출 결과에 24시간 캐시를 적용한 것만으로도 외부 API 지출을 추가로 18% 절감했습니다.
각 모델의 기여도를 별도로 기록(Log)할 것. 어떤 단계에서 얼마의 비용이 발생하는지 볼 수 없다면, 최적화할 수 없습니다. 실행당 {task_id, step, model, input_tokens, output_tokens, cost}를 담은 간단한 CSV 로그는 올해 당신이 추가할 수 있는 가장 영향력 있는 관측성 (observability) 도구가 될 것입니다.

2026년의 본능적인 반응은 품질이 떨어질 때 더 큰 모델을 찾는 것입니다. 하지만 대부분의 경우, 정답은 더 타이트한 컨텍스트 (context)를 가진 더 작은 모델입니다.

배운 점

컨텍스트 스터핑 (Context stuffing)은 조용한 살인자입니다. 더 많은 컨텍스트가 항상 더 좋은 것은 아닙니다. 그것은 거의 항상 더 비쌉니다.
시스템 프롬프트 (System prompts)는 부패합니다. 6개월 전에 작성한 것은 아마 필요 이상으로 3배는 더 길어져 있을 것입니다.
멀티 모델 라우팅 (Multi-model routing)은 가용한 가장 영향력 있는 비용 최적화 방법입니다 — 비교 대상조차 없습니다.
품질 벤치마크 (Quality benchmarks)는 매번 직관을 이깁니다. "비슷한 것 같다"는 말은 동전 던지기와 같습니다. 50개의 작업으로 구성된 평가 스위트 (eval suite)가 정답입니다.
인용 범위 (Citation coverage)는 과소평가된 지표입니다. 이는 제가 추적한 그 어떤 수치보다 사용자 신뢰와 더 높은 상관관계를 보입니다.

에이전트가 더 똑똑해진 것이 아닙니다. 파이프라인 (pipeline)이 각 단계에 실제로 무엇이 필요한지에 대해 더 정직해진 것입니다.

만약 여러분이 프로덕션 (production) 환경에서 에이전트를 실행하고 있는데, 지난 30일 동안 단계별 토큰 내역 (per-step token breakdown)을 확인하지 않았다면, 바로 그 지점부터 시작해 보시기 바랍니다. 제가 절감하고 있는 월 847달러는 단 한 번의 주말과 세 개의 파일 수정만으로 만들어낸 결과입니다.