AI 에이전트 비용 감사: 에이전트 플릿 예산이 실제로 어디에 사용되는지 찾아내는 5단계 프레임워크

2025년 10월, AI 기반 웹사이트 도구를 구축하던 한 개발자가 커피를 마시기 위해 잠시 자리를 비웠습니다. 그들은 테스트를 위해 7개의 자율 에이전트(autonomous agents) 세트를 실행해 두었습니다. 2시간 후, 그들이 API 대시보드를 확인했을 때 청구 금액은 200달러가 급증해 있었습니다. 에이전트 하나가 중단 조건(stopping condition) 없이 루프(loop)를 돌며 계속해서 API를 호출하며 전체 시간 동안 연속적으로 실행되고 있었던 것입니다. 그들이 이를 발견했을 때는 이미 돈이 다 써버린 후였습니다.

**AI 에이전트 비용 감사 (AI agent cost audit)**는 청구서가 도착하기 전에 에이전트 플릿(agent fleet) 지출이 실제로 어디에서 발생하는지 — 어떤 에이전트, 어떤 워크플로우(workflow), 어떤 패턴인지 — 결정하기 위한 구조화된 프로세스입니다. 이는 비용 추적(cost tracking, 사후에 개별 LLM 호출 비용을 기록하는 것) 및 비용 강제 적용(cost enforcement, 런타임 제한을 적용하는 것)과는 구별됩니다. 감사는 비용을 관찰하는 것과 제어하는 것 사이의 진단 계층(diagnostic layer)입니다.

비용 추적은 이제 모든 주요 AI 관측성(observability) 플랫폼에서 표준이 되었습니다. Arize AX는 스팬(span)당 비용을 계산하고 트레이스(trace) 수준에서 집계합니다. LangSmith는 실행(run)당 토큰 사용량을 보여줍니다. Helicone은 API 호출 전반에 걸쳐 모델별 사용량을 보여줍니다. 이것들은 유용한 시작점입니다. 하지만 사후적인 트레이스별 비용 데이터는 실제 비용 절감을 이끄는 질문들에 답을 주지 못합니다:

플릿 내의 어떤 에이전트가 월간 청구액의 대부분을 차지하는가?
어떤 오케스트레이션(orchestration) 패턴이 필요하지 않은 작업에 비싼 모델을 호출하고 있는가?
어떤 워크플로우가 종료되지 않고 조용히 루프를 돌며 토큰을 소비하고 있는가?
실제로는 극히 일부의 호출에만 필요한데, 모든 호출에 컨텍스트(context)가 추가되고 있는가?

이러한 질문에 답하기 위해서는 구조화된 조사가 필요합니다. 아래의 5단계는 이를 수행하기 위한 반복 가능한 프레임워크를 구성합니다.

1단계: 실행 중인 항목에 대한 완전한 인벤토리 구축

AI 에이전트 비용 감사는 활성화된 전체 플릿을 열거하지 않고서는 시작할 수 없습니다. 대부분의 팀은 이 단계에서 생각했던 것보다 더 많은 에이전트가 실행되고 있다는 사실을 발견하게 됩니다.

완전한 인벤토리 (Inventory)를 구축하려면 현재 활성화된 모든 에이전트에 대해 다음 사항을 파악해야 합니다: 어떤 모델(들)을 호출하는지, 얼마나 빈번하게 실행되는지, 어떤 데이터 소스에 접근하는지, 그리고 누가 소유하고 있는지입니다. 많은 운영 환경에는 내부에서 구축한 에이전트, 폐기되지 않은 과거 파일럿 단계의 실험적 에이전트, 그리고 벤더 에이전트(Vendor agents)가 혼재되어 있습니다. 벤더 에이전트는 공유 인프라에서 실행되는 제3자 통합 서비스(Third-party integrations)로, 다른 모든 항목과 동일한 청구서에 API 비용이 나타나지만 종종 귀속 정보(Attribution)가 누락되곤 합니다.

공식적인 에이전트 레지스트리 (Agent registry)가 없다면, 인벤토리 단계에서 런타임 API 호출을 원천까지 수동으로 추적해야 합니다. 이는 매우 시간이 많이 소요되는 과정이며, 왜 레지스트리가 선택적인 편의 기능이 아니라 거버넌스(Governance)의 필수 전제 조건인지를 보여주는 사례이기도 합니다. 또한 인벤토리 단계에서는 팀들이 지속적으로 과소평가하는 첫 번째 비용 동인(Cost driver)을 확실히 드러내 줍니다. 바로 비활성화되지 않은 채 몇 주 또는 몇 달 동안 토큰 비용을 발생시키고 있는 테스트 또는 파일럿 에이전트들입니다.

1단계의 결과물은 모든 항목에 대해 비용 관련 속성이 포함된 완전한 에이전트 인벤토리입니다. 이것 없이는 2단계를 수행할 수 없습니다.

2단계: 특정 에이전트 및 워크플로에 비용 귀속시키기

인벤토리가 갖춰지면, 귀속 (Attribution) 과정을 통해 전체 플릿(Fleet) 비용을 이를 생성하는 특정 에이전트 및 워크플로(Workflows)에 매핑할 수 있습니다.

이 지점에서 트레이스 단위 관측성 (Per-trace observability) 플랫폼은 구조적 한계에 부딪힙니다. 트레이스별 지출을 보여주는 비용 대시보드는 개별 워크플로의 실패를 디버깅하는 데는 유용하지만, 전체 플릿에 걸쳐 에이전트 식별자별로 지출을 집계하지는 못합니다. 만약 12개의 에이전트가 실행 중이고 그중 3개가 월간 지출의 80%를 차지하고 있다면, 팀에는 호출 단위의 세밀함(Granularity)이 아니라 에이전트별 플릿 수준의 비용 집계가 필요합니다. 이 둘은 서로 다른 데이터 모델이며, 대부분의 관측성 도구는 후자(호출 단위)를 위해 구축되어 있습니다.

귀속 과정을 거치면 보통 두 가지 범주의 의외의 사실이 드러납니다:

**빈도가 높고 호출당 비용이 낮은 에이전트 (High-frequency, low-cost-per-call agents)**는 거래량(volume)을 통해 상당한 비용을 누적합니다. 30초마다 작은 모델 호출을 수행하는 에이전트는 한 시간에 한 번씩 비싼 호출을 하는 에이전트보다 더 많은 월간 지출을 발생시킬 수 있습니다. 개별 트레이스(trace)는 저렴해 보이지만, 누적 총액은 그렇지 않습니다. 이러한 에이전트들은 단일 호출이 경고를 보낼 만큼 눈에 띄지 않기 때문에, 호출 단위(per-trace) 뷰에서는 정확히 보이지 않습니다.

다단계 워크플로에서의 컨텍스트 누적 (Context accumulation in multi-step workflows). 일부 오케스트레이션(orchestration) 패턴은 실행 단계마다 점점 늘어나는 대화 기록을 전달합니다. 컨텍스트 윈도우(context window)가 채워짐에 따라 호출당 비용이 상승하며, 일부 아키텍처에서는 이 비용이 이차 함수적으로(quadratically) 증가합니다. 20번의 호출을 수행하는 것처럼 보이는 워크플로가 실제로는 점진적으로 더 비싸지는 20번의 호출에 대해 비용을 지불하고 있을 수 있으며, 후반 단계는 초기 단계보다 5~10배 더 많은 토큰을 소비할 수 있습니다.

두 패턴 모두 플릿(fleet) 수준의 비용 귀속 없이는 식별할 수 없습니다. 이를 찾아내는 것이 이 단계의 주요 결과물입니다.

3단계: 대부분의 낭비를 유발하는 세 가지 패턴 식별하기

귀속(attribution)이 확립되면, 패턴 분석을 통해 불균형한 비용을 초래하는 구체적인 동작을 식별할 수 있습니다. 실제로 대부분의 에이전트 비용 낭비는 세 가지 패턴에 집중됩니다.

폭주하는 성찰 루프 (Runaway reflection loops). 응답하기 전에 자신의 출력물을 스스로 성찰(reflect)하도록 구성된 에이전트는 각 성찰 단계마다 LLM에 다시 진입합니다. 중단 조건(stopping condition)이 제대로 정의되지 않았거나 없는 경우, 에이전트는 무한히 반복합니다. 위에서 설명한 '2시간 만에 200달러 지출' 사건이 가장 흔한 사례입니다. AI 코딩 도구를 만드는 한 개발자는 유사한 실패 사례를 보고했습니다. 그의 2025년 8월 기록에 따르면, 뱅킹 마이크로서비스 구축 임무를 맡은 Gemini CLI가 "자신의 루프 속에서 길을 잃었으며, 특히 심했던 어느 날은 혼자서 300달러의 비용을 발생시켰다"고 합니다. 루프는 자연적인 상한선이 없기 때문에 가장 심각한 비용 패턴입니다. 밤새 작동하는 단 하나의 오작동하는 에이전트가 나머지 플릿 전체를 합친 것보다 더 많은 비용을 발생시킬 수 있습니다.

모델-태스크 불일치 (Model-task mismatch). 모든 태스크가 사용 가능한 가장 강력한 모델을 필요로 하는 것은 아닙니다. 분류 (Classification), 라우팅 결정 (Routing decisions), 구조화된 데이터 추출 (Structured data extraction), 그리고 형식 변환 (Format conversion)은 일반적으로 더 작고 비용이 저렴한 모델에서도 동등하거나 더 나은 정확도로 실행됩니다. 가장 저항이 적은 경로라는 이유로 모든 에이전트 호출을 사용 가능한 가장 큰 모델로 기본 설정하는 팀은, 그렇지 않아도 되는 태스크에 대해 지속적으로 과도한 비용을 지불하게 됩니다. 감사를 통해 플릿(Fleet) 내의 모든 태스크 유형을 분류하고, 모델 선택이 실제 태스크 복잡도와 일치하는지 확인해야 합니다.

죽은 컨텍스트 (Dead context). 모든 LLM 호출 앞에 추가되는 컨텍스트는 대부분의 호출에 필요하지 않더라도 전체 플릿의 토큰 비용을 부풀립니다. 흔한 예로는, 규제 대상 워크플로우가 극히 일부에만 해당함에도 불구하고 모든 호출에 규제 관련 상용구 (Boilerplate)가 포함된 시스템 프롬프트 (System prompts)를 사용하는 경우, 또는 특정 쿼리가 그 내용 전체를 필요로 하는지 여부와 관계없이 고정된 크기의 청크 (Chunk)를 가져오는 RAG 검색 (RAG retrieval) 등이 있습니다. 죽은 컨텍스트는 비용이 수천 개의 호출에 분산되어 있기 때문에 간과하기 쉽습니다. 단일 호출은 비싸 보이지 않지만, 합계는 상당합니다.

플릿 수준의 귀속 (Attribution) 체계가 갖춰지면, 각 패턴은 사용 데이터에서 식별할 수 있습니다. 이를 찾아내는 것은 무엇을 찾아야 하는지 아는 능력에 달려 있습니다.

4단계: 실행 계층에서 예산 경계 강제하기

결과 도출만 있고 강제 실행 인프라가 없는 비용 감사는 다음 감사 주기에서도 동일한 결과를 낳을 뿐입니다. 감사의 목적은 보고서를 만드는 것이 아니라, 그 보고서가 구축을 정당화하는 예방 시스템을 만드는 것입니다.

강제 실행은 두 가지 수준에서 작동합니다:

에이전트별 하드 리밋 (Hard limits per agent). 플릿 내의 모든 에이전트는 정의된 예산 상한선(budget ceiling)을 가져야 합니다. 즉, 실행당, 세션당, 또는 특정 기간당 최대 토큰 지출량을 설정해야 합니다. 이 상한선에 도달하면 에이전트는 중단됩니다.

플릿(fleet) 내의 각 에이전트에 대해 다음 항목을 정의하십시오: 실행당 예상 비용, 예상 실행 빈도, 그리고 예상 컨텍스트 크기(context size) 범위. 이 항목들은 진행 중인 실시간 텔레메트리 (real-time telemetry)를 측정하는 기준선(baseline)이 됩니다. 에이전트의 실제 사용량이 정의된 임계값을 초과하여 기준선에서 벗어나면, 경고는 구체적으로 발생합니다. 즉, "이번 주 지출이 증가했습니다"가 아니라, "계약 검토(contract-review) 에이전트의 평균 컨텍스트 크기가 지난 7일 동안 기준선 대비 38% 증가했으며, 이는 컨텍스트 누적을 시사합니다"와 같이 전달됩니다.

구체적인 경고는 실행 가능합니다. 일반적인 경고는 소음일 뿐입니다.

기준선을 설정하면 이후의 감사(audit) 속도도 크게 빨라집니다. 전체 플릿을 처음부터 조사하는 대신, 다음 감사에서는 실제 사용량이 설정된 패턴에서 실질적으로 벗어난 에이전트—일반적으로 전체 플릿의 아주 작은 부분—에 집중합니다. 조사 범위가 모든 것에서 의미 있는 이상치(outliers)로 좁혀지는 것입니다.

이 단계는 비용 가시성을 후행 지표(지난달 청구서)에서 선행 지표(예산 초과라는 뜻밖의 상황으로 이어지기 전, 현재 무엇이 변하고 있는지)로 전환합니다. 감사 프레임워크가 설정 단계라면, 지속적인 드리프트 모니터링(drift monitoring)은 운영상의 결실입니다.

Waxell이 이를 처리하는 방식

대부분의 AI 관측성(observability) 도구들은 트레이스(trace) 수준에서 멈춥니다. 즉, 사후에 호출별로 어떤 일이 일어났는지를 기록할 뿐입니다. Waxell은 전체 감사 사이클을 중심으로 구축되었습니다: 한 번의 계측(instrument)으로, 플릿 수준에서 관측하고, 선제적으로 강제합니다.

Waxell Observe는 단 2줄의 코드로 배포되며, 재빌드 없이 200개 이상의 라이브러리를 자동으로 계측(auto-instruments)합니다. 이는 에이전트별, 워크플로우 유형별, 세션별로 플릿 수준에서 비용 및 사용 데이터를 집계합니다. 이를 통해 로우 트레이스(raw trace) 데이터 위에 커스텀 집계 파이프라인을 구축하지 않고도 2단계에서 요구하는 귀속(attribution) 레이어를 제공합니다.

Waxell Runtime은 감사의 결과물을 강제(enforce)합니다. 즉, 에이전트별 엄격한 예산 제한, 루프 탐지 정책(loop detection policies), 모델 선택 제어(model-selection controls), 그리고 50개 이상의 정책 카테고리에서 추출된 컨텍스트 크기 게이트(context size gates)를 적용합니다. 감사를 통해 지난달 지출의 30%를 차지한 원인이 폭주하는 루프(runaway loop)로 식별되면, Waxell Runtime은 코드 변경이나 재배포 없이 해당 에이전트에 루프 탐지 정책을 즉시 배포합니다. 재빌드(rebuild)는 필요하지 않습니다.

Waxell Connect는 팀이 직접 구축하지 않은 에이전트들, 즉 벤더 에이전트(vendor agents), 서드파티 통합(third-party integrations), 그리고 공유 인프라에서 실행되는 MCP 네이티브 에이전트들을 관리합니다. 비용 감사 시, 벤더 에이전트는 빈번하게 귀속(attribution)의 공백이 됩니다. 이들은 플릿(fleet) 청구서에는 나타나지만, 팀이 설치한 계측(instrumentation) 도구로는 원인을 파악할 수 없는 API 비용을 발생시키기 때문입니다. Waxell Connect는 SDK가 없고 코드 변경이 필요 없는 외부 에이전트에도 동일한 예산 강제 및 정책 제어를 적용합니다. Waxell Connect는 여러분이 직접 만들지 않은 에이전트들을 관리합니다.

FAQ

AI 에이전트 비용 감사(AI agent cost audit)란 무엇인가요?
AI 에이전트 비용 감사란 에이전트 플릿의 지출이 실제로 어디에서 발생하는지 — 즉, 어떤 에이전트, 어떤 워크플로우 패턴, 어떤 동작에서 기인하는지 — 결정하기 위한 구조화된 프로세스입니다. 이는 비용 추적(cost tracking, 호출당 비용을 사후에 기록하는 것) 및 비용 강제(cost enforcement, 런타임에 제한을 적용하는 것)와는 구별됩니다. 감사는 비용을 관찰하는 것과 제어하는 것 사이의 진단 레이어(diagnostic layer)입니다. 감사는 근본 원인을 식별하여 적절한 강제 제어(enforcement controls)가 적용될 수 있도록 합니다.