팀별 AI API 비용을 할당하는 방법: FinOps 실무자를 위한 가이드

요약 (TL;DR):

팀별 AI API 비용 할당은 요청 시점부터 시작됩니다. 로그에 팀(team), 프로젝트(project), 모델(model), 토큰 수(token counts), 단가(unit prices) 정보가 누락되면 월말 비용 정산(chargeback)은 추측에 의존하게 됩니다.
제공업체(Provider)의 내보내기 데이터는 총액 확인에는 유용하지만, 게이트웨이 로그와 OpenTelemetry 속성(attributes)은 FinOps 팀에 할당에 필요한 팀 수준 및 요청 수준의 컨텍스트를 제공합니다.
LiteLLM 가상 키(virtual keys), OpenAI 사용 데이터, Bedrock 메타데이터, 그리고 데이터 웨어하우스 조인(warehouse joins)을 활용하면 모든 애플리케이션을 재작성하지 않고도 하나의 실용적인 할당 모델을 구축할 수 있습니다.
대화 ID(conversation IDs)는 디버깅 컨텍스트로 취급해야 하며, 과금 식별자로 사용해서는 안 됩니다. 비용 정산(Chargeback)에는 team_id, cost_center, service, project_id와 같이 지속 가능한 소유권 필드를 사용해야 합니다.
방어 가능한 월간 프로세스는 숫자가 재무 이해관계자에게 전달되기 전에 제공업체 총액, 게이트웨이 총액 및 예외 사항을 조정(reconcile)하는 과정을 포함합니다.

AI 지출이 연간 5만 달러가 될 때 할당이 불가능해지는 이유

재무 팀은 하나의 제공업체(provider) 인보이스를 받는데, 엔지니어링 팀은 수많은 서비스, 팀, 환경 및 실험으로부터 트래픽을 발생시킬 때 팀별 AI API 비용 할당은 고통스러워집니다. 연간 5,000달러 수준이라면 소유자에 대한 몇 가지 추측이 담긴 스프레드시트로도 견딜 만할 수 있습니다. 하지만 연간 50,000달러 또는 500,000달러 수준이 되면, 단 한 번의 비용 급증이 작은 팀의 예산보다 커질 수 있기 때문에 동일한 방식은 논쟁을 불러일으킵니다. 핵심적인 실패 원인은 대개 가격 책정이 아닙니다. 각 요청이 생성되는 시점에 소유권 메타데이터(ownership metadata)가 누락되어 있다는 점이 실패의 원인입니다.

하나의 OpenAI 조직(organization), 세 개의 Bedrock 애플리케이션, 하나의 공유 LiteLLM 게이트웨이, 그리고 몇 개의 데이터 과학 노트북을 가진 회사를 가정해 봅시다. 청구서에는 제공업체별 총 지출액과 때로는 프로젝트 또는 API 키별 지출액이 표시됩니다. 플랫폼 팀은 월 중간에 지원 자동화(support automation) 배포가 있었다는 사실을 알고 있지만, 재무 팀은 혼합된 청구서만 보게 됩니다. 만약 요청 로그에 cost_center 또는 service 필드가 없다면, 모든 하위 보고서는 그 모호함을 그대로 물려받게 됩니다. 소급 태깅(Retroactive tagging)을 통해 알려진 워크로드를 설명할 수는 있지만, 사후에 알 수 없는 트래픽을 신뢰성 있게 할당할 수는 없습니다.

OpenAI Cookbook usage and cost API example에 따르면, 사용량 분석에는 프로젝트(project), 사용자(user), API 키(API key), 모델(model), 입력 토큰(input tokens), 출력 토큰(output tokens), 요청 횟수(request counts)와 같은 필드가 포함될 수 있습니다. 이는 유용하지만, 이러한 필드들은 여전히 규율 있게 그룹화되고 전파되어야 합니다. 프로젝트 정보가 없거나(null) 공유 키(shared key)를 사용하는 경우, 재무 부서에서는 어떤 부서가 비용을 발생시켰는지 알 수 없습니다. FinOps 실무자는 소유권 필드가 비어 있는(null) 모든 경우를 수용 가능한 보고 상태가 아니라, 반드시 시정(remediation)이 필요한 예외 사항으로 취급해야 합니다.

FinOps가 방어할 수 있는 귀속 데이터 모델 (Attribution data model)

방어 가능한 AI 비용 차지백(chargeback) 모델은 식별 필드(identity fields)와 기술적 사용 필드(technical usage fields)를 분리합니다. 식별 필드는 해당 작업의 소유자가 누구인지에 답합니다: team_id, cost_center, project_id, service, environment, 그리고 때로는 customer tenant가 이에 해당합니다. 기술적 필드는 비용이 어떻게 발생했는지를 설명합니다: provider, model, operation, input tokens, output tokens, cached tokens, latency, status, 그리고 timestamp입니다. 가격 필드(pricing fields)는 결과를 감사(auditable)할 수 있게 만듭니다: unit price snapshot, currency, token class, 그리고 provider invoice period입니다. 각 그룹은 서로 다른 소유자를 가지며, 특정 수치에 대해 이의가 제기될 때 이러한 소유권은 매우 중요합니다.

플랫폼 엔지니어링(Platform engineering)은 게이트웨이 계약(gateway contract)을 소유해야 합니다. 게이트웨이는 요청이 회사의 경계를 벗어나기 전에 필수 메타데이터(metadata)를 강제하기에 가장 적합한 장소이기 때문입니다. 애플리케이션 팀(Application teams)은 서비스 이름(service name), 비즈니스 프로젝트(business project), 고객 테넌트(customer tenant)와 같은 값을 소유해야 합니다. FinOps는 team_id에서 cost center, budget, 그리고 reporting owner로 이어지는 매핑 테이블(mapping tables)을 소유해야 합니다. 보안(Security) 또는 컴플라이언스(compliance) 팀은 사용자 수준의 보존 규칙(retention rules)을 소유할 수 있습니다. 깔끔한 설계는 민감한 사용자 식별자(user identifiers)를 주의 깊게 다루면서도, 과금 식별자(billing identity)의 내구성을 유지합니다.

OpenTelemetry GenAI semantic conventions에 따르면, 생성형 AI 텔레메트리 (telemetry)에는 작업 (operations), 메트릭 (metrics), 스팬 (spans), 예외 (exceptions), 그리고 OpenAI 및 AWS Bedrock과 같은 제공자별 시스템 (provider-specific systems)을 위한 공통 컨벤션 (conventions)이 포함됩니다. OpenAI 컨벤션 페이지는 제공자 이름 (provider name), 요청 모델 (request model), 작업 이름 (operation name), 토큰 사용량 (token usage)과 같은 속성 (attributes)을 정의합니다. 이러한 컨벤션이 귀사의 내부 비용 센터 (cost_center) 필드를 대체하는 것은 아니지만, OpenAI, Bedrock, Anthropic 및 게이트웨이 (gateway) 이벤트를 결합할 수 있는 안정적인 교차 제공자 기술 계층 (cross-provider technical layer)을 제공합니다.

팀 단위 할당을 위한 최소한의 이벤트는 다음과 같은 형태일 수 있습니다:

{
  "timestamp": "2026-06-01T10:15:00Z",
  "provider": "openai",
...

팀별 AI 비용을 할당하는 세 가지 방법 비교

대부분의 팀은 세 가지 시작점 중 하나를 선택합니다: 제공자 네이티브 내보내기 (provider-native exports), 게이트웨이 매개 할당 (gateway-mediated attribution), 또는 관측성 우선 파이프라인 (observability-first pipeline)입니다. 적절한 선택은 얼마나 많은 제공자를 사용하는지, 트래픽이 이미 게이트웨이를 통해 흐르고 있는지, 그리고 재무 부서에서 월간 보고서를 얼마나 빨리 필요로 하는지에 따라 달라집니다. 많은 중견 기업 팀의 경우, 게이트웨이 할당이 가장 빠른 경로인데, 이는 키 (keys), 메타데이터 (metadata), 예산 (budgets) 및 로그 (logs)를 위한 단일 강제 지점 (enforcement point)을 생성하기 때문입니다. 제공자 API는 대조 (reconciliation)를 위해 여전히 필요하며, OpenTelemetry는 플랫폼 팀에 더 깔끔한 장기적 스키마 (schema)를 제공합니다.

접근 방식	구현 시간	할당 세분성 (Attribution granularity)	멀티 프로바이더 지원	예산 가드레일 (Budget guardrails)	정산 노력 (Reconciliation effort)	실패 모드 (Failure mode)
프로바이더 네이티브 내보내기 및 API (Provider-native exports and APIs)	1~2주	설정 시 프로젝트, 사용자, API 키, 모델 단위	각 프로바이더로 제한됨	일반적으로 프로바이더별로 별도 운영	내보내기 데이터에 매핑 테이블이 필요하므로 중간 수준	공유 키 및 프로젝트 필드 누락으로 인한 미할당 지출 발생
...

LiteLLM 지출 추적 문서에 따르면, 프록시(proxy)는 다양한 LLM 프로바이더에 걸쳐 키, 사용자 및 팀별로 지출을 추적할 수 있습니다. 이를 통해 팀에 가상 키(virtual keys)를 할당하고, 게이트웨이 엔드포인트(gateway endpoints)를 통해 지출을 점검하며, 요청 경로(request path)에 더 가까운 곳에서 예산을 강제하는 것이 실용적으로 가능해집니다. 트레이드오프(tradeoff)는 라우팅 규율(routing discipline)입니다. 만약 연구용 노트북이나 백그라운드 워커(background worker)가 프로바이더를 직접 호출한다면, 게이트웨이 보고서는 불완전해질 것이므로 매달 프로바이더의 내보내기 데이터를 여전히 확인해야 합니다.

OpenTelemetry 우선 접근 방식은 플랫폼이 이미 Honeycomb, Datadog, Grafana 또는 내부 데이터 웨어하우스(warehouse)에 트레이스(traces)를 보유하고 있을 때 더 효과적입니다. 이는 엔지니어에게 지연 시간(latency) 및 에러 클래스(error classes)를 포함한 가장 깊은 디버깅 컨텍스트(debugging context)를 제공하지만, 이를 유일한 강제 지점(enforcement point)으로 삼아서는 안 됩니다. 관측성(Observability)은 무엇이 일어났는지를 알려줍니다. 반면 게이트웨이는 필수적인 팀 메타데이터(team metadata)가 없는 요청을 거부함으로써, 소속되지 않은 지출이 발생하는 것 자체를 사전에 방지할 수 있습니다.

구현 플레이북: 30일 안에 OpenAI, Bedrock 및 게이트웨이 구축하기

현실적인 도입은 대시보드가 아니라 귀속 계약(attribution contract)에서 시작됩니다. 첫 번째 주에는 모든 운영(production) AI 요청에 필요한 필드를 정의하십시오: team_id, cost_center, project_id, service, environment, provider, model, operation, timestamp, token counts, 그리고 request cost입니다. 어떤 필드를 애플리케이션이 직접 제공해야 하는지, 그리고 어떤 필드를 게이트웨이(gateway)가 유도(derive)할 수 있는지 결정하십시오. 명명 규칙(naming rules)을 공표하십시오. 예를 들어, team_id는 매 분기 변경되는 자유 형식의 표시 이름이 아니라 support-ops와 같이 안정적인 슬러그(slug) 형태여야 합니다.

두 번째 주에는 가능한 경우 LiteLLM과 같은 AI 게이트웨이(gateway)를 통해 프로바이더(provider) 호출을 라우팅하십시오. 팀 또는 서비스별로 가상 키(virtual keys)를 생성하고, 예산을 할당하며, 요청 본문(request bodies) 또는 헤더(headers)에 메타데이터(metadata)를 포함하도록 요구하십시오. 프로바이더 네이티브(provider-native) 내보내기(export)를 병렬로 계속 실행하십시오. 이는 대조(reconciliation)를 위한 단일 진실 공급원(source of truth)이기 때문입니다. 만약 OpenAI가 조직이 한 달 동안 12,840달러를 지출했다고 말하는데 게이트웨이에는 11,900달러만 기록되어 있다면, 그 차이는 반올림 문제가 아닙니다. 그것은 예외 큐(exceptions queue)입니다.

세 번째 주에는 AI 트래픽을 생성하는 서비스에 OpenTelemetry 속성(attributes)을 추가하십시오. OpenAI 트래픽의 경우 provider, operation, request model, token usage, 그리고 error 필드를 포함하십시오. Bedrock의 경우, 데이터 웨어하우스(warehouse)에서 별도의 프로바이더 테이블 대신 하나의 모델로 쿼리할 수 있도록 상응하는 프로바이더별 컨벤션(provider-specific conventions)을 사용하십시오. 네 번째 주에는 총액, 예외 사항, 그리고 조치 담당자(remediation owners)가 포함된 첫 번째 비용 청구(chargeback) 보고서를 발행하십시오. 완벽한 커버리지를 기다리지 마십시오. 지출의 82%를 귀속시키고 나머지 18%의 원인을 명시하는 첫 번째 보고서가, 계획 단계에서 결코 벗어나지 못하는 완벽한 설계보다 훨씬 유용합니다.

실제 사례: 비용 급증 탐지 및 할당

제공업체 지출이 4월의 $8,200에서 5월의 $14,600로 증가했다고 가정해 봅시다. 재무팀의 질문은 간단합니다. 어떤 팀이 $6,400의 증가를 초래했는가? 부실한 보고서는 사용량이 증가했다고 말합니다. 유용한 보고서는 support-ops 비용이 $1,900에서 $5,470로 증가했고, growth 비용은 $2,300에서 $2,710로 증가했으며, data-platform은 $3,800로 일정하게 유지되었고, 원인 미상(unattributed) 지출은 $200에서 $620로 늘어났다고 말합니다. 이는 비즈니스에 의사결정 경로를 제공합니다. Support 팀은 새로운 배포(rollout)에 대해 설명할 수 있고, growth 팀은 미미한 증가를 무시할 수 있으며, platform 팀은 원인 미상 항목을 조사할 수 있고, 재무팀은 적절한 예산에 비용을 청구할 수 있습니다.

계산 방식이 신비로울 필요는 없습니다. 각 요청(request)에 대해, 토큰 클래스(token classes)에 요청이 실행될 당시 활성화되어 있던 가격 스냅샷(price snapshot)을 곱한 다음, 팀(team)과 모델(model)별로 그룹화하면 됩니다. 만약 support-ops 팀이 프리미엄 모델에 5,100만 개의 입력 토큰(input tokens), 900만 개의 캐시된 입력 토큰(cached input tokens), 그리고 800만 개의 출력 토큰(output tokens)을 보냈다면, 혼합 가격(blended price)은 한 번의 과금 주기(billing period) 동안 쉽게 수천 달러를 만들어낼 수 있습니다. 만약 동일한 팀이 저위험 티켓(low-risk tickets)을 위해 요약(summarization) 작업을 더 저렴한 모델로 옮겼다면, 다음 보고서에는 더 낮은 단위 비용(unit cost)과 유사한 요청량(request volume)이 모두 나타나야 합니다.

예외 처리(Exception handling)는 부록이 아니라 보고서의 일부입니다. team_id가 누락된 모든 행은 소스 서비스(source service), API 키(API key), 경로(route), 마지막 확인 타임스탬프(last seen timestamp)와 함께 담당자 큐(owner queue)로 전달되어야 합니다. team_id는 있지만 비용 센터(cost_center)가 없는 행은 FinOps 매핑 정리(mapping cleanup) 단계로 넘어가야 합니다. 모델은 있지만 토큰 수(token counts)가 없는 행은 계측 정리(instrumentation cleanup) 단계로 넘어가야 합니다. 보고서는 예외 사항들이 '0'이 되기 위한 명확한 경로를 가질 때에만 방어 가능(defensible)합니다.

비용 재청구(chargeback)를 공정하게 유지하는 통제 및 예외 사항

비용 재청구(chargeback) 프로그램은 팀들이 규칙이 징벌적이거나 불안정하다고 느낄 때 실패합니다. 팀별 AI API 비용 할당(attribution)에는 인보이스(invoice)가 도착하기 전에 비용을 예측할 수 있게 만드는 통제 장치가 필요합니다. 첫 번째 통제 장치는 요청 검증(request validation)입니다. 운영(Production) 요청은 team_id, project_id, environment, model이 누락된 경우 실패(fail closed) 처리되어야 합니다. 개발(Development) 트래픽은 더 허용적일 수 있지만, 실험 비용이 운영 전체 합계에 숨겨지지 않도록 기본 샌드박스(sandbox) 예산이 필요합니다.

두 번째 통제 장치는 예산 피드백(budget feedback)입니다. 게이트웨이(gateway)는 팀이 월간 AI 예산의 75%를 초과하기 전에 경고를 보내야 하며, 90%에서 에스컬레이션(escalate)하고, 마지막으로 중요도가 낮은 워크로드(workload)에 대해서는 100% 도달 시 스로틀링(throttle)을 걸거나 승인을 요구해야 합니다. 월말 마지막 날에 팀을 놀라게 하지 마세요. 요청(requests), 토큰(tokens), 모델(models), 그리고 예상 달러(estimated dollars)에 대한 가시성을 매일 제공해야 합니다. 세 번째 통제 장치는 모델 정책(model policy)입니다. 만약 어떤 팀이 더 저렴한 모델에서도 품질 검사를 통과할 수 있는 작업에 고비용 모델을 사용한다면, 보고서는 단순히 토큰 수뿐만 아니라 달러 단위의 최적화 기회를 보여주어야 합니다.

마지막으로, 명확한 예외 정책(exception policy)을 유지하세요. 일부 지출은 공유 플랫폼 작업, 장애 대응(incident response), 보안 검토(security review) 또는 고객별 에스컬레이션(customer-specific escalation)에 해당합니다. 이러한 항목들은 공유 비용 센터(shared cost center)로 할당될 수 있지만, 사라져서는 안 됩니다. 공정한 보고서는 일반적인 팀 사용량, 승인된 공유 사용량, 그리고 원인을 알 수 없는 미할당 사용량(unattributed usage)을 구분해야 합니다. 이러한 구분이 재무(finance) 관련 논의가 비난이 아닌 의사 결정에 집중되도록 유지해 줍니다.

요약: 팀별 AI API 비용 할당

팀별 AI API 비용 할당은 우선적으로 요청 시점의 데이터(request-time data) 문제이며, 그다음이 보고(reporting) 문제입니다. 제공업체(Provider)의 내보내기(exports), 게이트웨이 로그(gateway logs), 그리고 OpenTelemetry 트레이스(traces)는 각각 진실의 일부만을 보여줍니다. FinOps의 역할은 이러한 소스들을 결합하여 검토를 견뎌낼 수 있는 차지백(chargeback) 모델을 만드는 것입니다. 이 모델에는 지속 가능한 팀 식별자(team identity), 프로젝트 및 서비스 소유권, 제공업체 및 모델 사용량, 토큰 수(token counts), 가격 스냅샷(price snapshots), 그리고 문서화된 예외 큐(exception queue)가 포함되어야 합니다. 만약 요청 경로(request path)에서 소유권 메타데이터(ownership metadata)를 캡처하지 못한다면, 월말 스프레드시트는 추측에 의존할 수밖에 없습니다.

가장 작고 방어 가능한 계약(defensible contract)부터 시작하십시오. team_id, cost_center, project_id, model, provider, token counts, timestamp, 그리고 단가 스냅샷(unit price snapshot)을 요구해야 합니다. 실행 가능한 경우 게이트웨이(gateway)를 통해 트래픽을 라우팅하고, 매월 제공업체의 총합을 대조(reconcile)하며, OpenTelemetry 속성(attributes)을 사용하여 교차 제공업체 분석(cross-provider analysis)이 덜 취약하게 만드십시오. agentcolony.org/auditor의 AI 비용 할당 감사 도구(AI Cost Attribution Auditor)는 플랫폼 및 FinOps 팀이 게이트웨이 트레이스를 붙여넣고, 누락된 소유권 필드를 검사하며, 차지백 정책이 확정되기 전에 필요한 요청 수준의 증거를 생성할 수 있도록 설계되었습니다.