아무도 경고하지 않는 AI API의 숨겨진 비용

우리 팀의 AI API 청구서가 하룻밤 사이에 두 배로 뛰었던 정확한 순간이 기억납니다. 우리는 고객 지원 챗봇을 만들고 있었습니다. 가격 페이지는 깔끔해 보였습니다: 1,000 토큰(tokens)당 $0.002. 간단하죠? 우리는 한 달에 10,000건의 대화가 발생하고, 각 대화는 평균 500 토큰 정도일 것이라고 예상했습니다. 그러면 $10입니다. 깔끔하죠.

그런데 첫 번째 운영(production) 인보이스가 도착했습니다. $27.43. 그다음은 $35. 다음 달에는 $52였습니다. 나는 누군가 소수점을 잘못 입력했다고 확신하며 스프레드시트를 뚫어지게 쳐다보았습니다. 하지만 아니었습니다. 숨겨진 비용들이 발생하기 시작했고, 그것들은 도처에 있었습니다.

지난 2년 동안 여러 개의 AI 기반 제품을 만들면서, 저는 API의 표기 가격(sticker price)이 실제 가격인 경우는 거의 없다는 것을 배웠습니다. 여기 아무도 당신에게 경고하지 않는 사실들이 있습니다.

토큰 회계의 함정 (The Token Accounting Trap)

제가 다뤄본 모든 AI API—OpenAI, Cohere, Anthropic—는 "토큰(token)" 단위로 가격을 책정합니다. 하지만 토큰은 단어가 아닙니다. 그것은 단어의 파편이며, 계산 규칙은 모델마다 다릅니다. "unbelievable"과 같은 단어 하나가 세 개의 토큰이 될 수도 있습니다. 코드 스니펫(code snippet)은요? 훨씬 더 심합니다.

여기 치명적인 문제가 있습니다: 입력 토큰(input tokens)과 출력 토큰(output tokens)의 가격이 다르지만, 문서에서는 종종 이 세부 사항을 숨겨둡니다. 예를 들어, GPT-4는 출력 토큰에 대해 입력 토큰보다 대략 3배 더 많은 비용을 청구합니다. 따라서 당신의 챗봇이 길고 유용한 응답을 작성한다면, 당신은 그 유용함에 대해 세 배의 비용을 지불하고 있는 것입니다.

하지만 제가 가장 크게 타격을 입었던 숨겨진 비용은 무엇이었을까요? 바로 **패딩(Padding)과 특수 토큰(special tokens)**입니다. 모든 API 호출에는 시스템 프롬프트(system prompts), 사용자 메시지(user messages), 그리고 어시스턴트 역할(assistant role) 토큰이 포함됩니다. 그 500 토큰짜리 대화요? 시스템 프롬프트와 포맷팅(formatting)을 추가하면 실제로는 650 토큰이 됩니다. 그리고 함수 호출(function calling)을 사용한다면, 각 함수 정의가 수백 개의 토큰을 추가합니다.

저는 그 차이를 확인하기 위해 간단한 Python 스크립트를 작성했습니다:

import tiktoken

enc = tiktoken.encoding_for_model("gpt-4")
...

첫 번째 테스트에서 그 오버헤드(overhead)는 30%였습니다. 시스템 프롬프트가 포함된 더 긴 대화에서는 50%에 달했습니다. 이는 당신이 예산에 전혀 반영하지 못한 돈입니다.

속도 제한(Rate Limits)은 단순한 과속 방지턱이 아니라—비용 승수입니다

속도 제한 (Rate limits)은 재정적인 제약이 아니라 기술적인 제약처럼 보였습니다. 우리는 단순히 요청을 큐 (queue)에 쌓아두고 재시도 (retry)를 처리하면 될 것이라고 생각했습니다. 틀렸습니다.

속도 제한에 걸리면 두 가지 선택지가 있습니다. 기다렸다가 재시도하거나 (앱의 속도가 느려짐), 더 높은 티어 (tier)로 업그레이드하는 것입니다 (더 많은 비용 지불). 하지만 여기에는 세 번째 숨겨진 비용이 있습니다. 바로 재시도 로직 (retry logic), 백오프 전략 (backoff strategies), 그리고 폴백 제공자 (fallback providers)를 구축하는 데 드는 엔지니어링 시간입니다.

우리는 지수 백오프 (exponential backoff)를 적용한 재시도 시스템을 구축했습니다. 작동은 했지만, 모든 재시도는 토큰 (tokens)을 소비했습니다. 일부 API에서는 실패한 요청도 토큰 할당량 (token quota)에 포함됩니다 (네, 정말로요). 우리는 속도 제한에 걸린 요청의 재시도만으로 한 달에 200달러를 낭비했습니다.

진짜 문제는 무엇일까요? 엔드포인트 (endpoints)마다 속도 제한이 다르다는 점입니다. 채팅 완성 (chat completion) 엔드포인트는 분당 요청 수 (RPM) 3,000회를 허용할 수 있지만, 임베딩 (embeddings) 엔드포인트는 100회로 제한될 수 있습니다. 만약 당신의 앱이 이 두 가지를 혼합해서 사용한다면, 당신은 끊임없이 스로틀링 (throttles)과 씨름해야 합니다.

벤더 종속 (Vendor Lock-In): 탈출세

이것은 가장 교묘한 비용이었습니다. 우리는 API가 간단하다는 이유로 한 제공업체로 시작했습니다. 6개월 후, 우리는 단순한 쿼리에는 더 저렴한 모델을 사용하고, 복잡한 쿼리에는 비싼 모델을 유지하도록 전환하고 싶었습니다.

그때 우리는 **API 스키마 종속 (API schema lock-in)**을 발견했습니다. 제공업체 A는 역할 (roles)이 포함된 messages 배열을 사용합니다. 제공업체 B는 prompt 문자열을 사용합니다. 제공업체 C는 모든 것을 커스텀 객체 (custom object)로 감쌉니다. 전환하려면 모든 호출 코드를 다시 작성해야 합니다. 그리고 각 모델마다 토큰 계산 방식이 다르기 때문에, 비용 추정치도 달라집니다.

우리는 추상화 계층 (abstraction layer)을 구축하는 데 2주를 보냈습니다. 개발자 급여 2주 치입니다. 이것은 어떤 송장 (invoice)에도 나타나지 않는 숨겨진 비용입니다.

스케일링의 함정 (The Scaling Trap)

앱이 성장함에 따라 우리는 또 다른 보이지 않는 비용을 발견했습니다. 바로 캐싱 (caching)이 결코 간단하지 않다는 점입니다. 많은 쿼리가 고유하기 때문에 모든 응답을 캐싱할 수는 없습니다. 하지만 부분적인 캐싱이라도 수행하려면 임베딩 (embeddings)을 저장해야 하며, 이는 자체적인 벡터 데이터베이스 (vector database)를 운영해야 함을 의미합니다. 이는 서버, 스토리지, 유지보수와 같은 인프라 비용으로 이어집니다.

우리는 토큰당 비용을 줄이기 위해 요청을 배치 (batching) 처리하는 방법을 시도했습니다. 일부 API는 배치 할인을 제공하지만, 배치 처리는 지연 시간 (latency)을 증가시킵니다. 실시간 앱의 경우 배치를 사용할 수 없습니다. 결국 프리미엄 비용을 지불하게 됩니다.

다음은 모니터링 비용입니다. 실제 지출을 추적하려면 모든 API 호출, 토큰 수, 사용된 모델을 기록하는 대시보드가 필요합니다. 우리는 자체적으로 구축했지만, 서드파티 도구들도 존재합니다. 어느 쪽이든 이는 또 다른 비용 항목이 됩니다.

첫날부터 알았더라면 좋았을 것들

고통스러운 예산 초과를 겪은 후, 우리 팀은 몇 가지 관행을 도입했습니다:

사용자 메시지만이 아니라 항상 전체 토큰을 계산하세요. 전송하기 전에 제공업체의 토크나이저 (tokenizer)를 사용하여 추정치를 확인하십시오.
비용 인지형 라우팅 계층 (cost-aware routing layer)을 구축하세요. 단순한 쿼리는 저렴한 모델로, 복잡한 쿼리는 비싼 모델로 라우팅하십시오. 이것만으로도 우리의 청구 금액을 40% 절감했습니다.
협상하세요. 월 $500 이상을 지출하고 있다면 제공업체에 연락하십시오. 많은 업체가 광고하지 않는 대량 할인이나 맞춤형 속도 제한 (rate limits)을 제공합니다.
탈출 전략을 계획하세요. 최소한의 변경만으로 제공업체를 교체할 수 있도록 코드를 설계하십시오. 설령 교체하지 않더라도, 이러한 준비는 가격 책정이 정직하게 유지되도록 압박을 가합니다.

모든 것을 바꿔 놓은 실질적인 해결책

결국 저는 여러 계정을 관리하고, 서로 다른 결제 주기를 추적하며, 예상치 못한 초과 비용을 걱정하는 것에 지쳤습니다. 숨겨진 수수료 없이 요청당 정확히 얼마를 지불해야 하는지 한곳에서 볼 수 있는 단일 지점을 원했습니다.

그때부터 tai.shadie-oneapi.com을 사용하기 시작했습니다. 이는 여러 AI 제공업체를 하나의 투명한 종량제 (pay-as-you-go) 모델로 통합하는 통합 API 게이트웨이 (API gateway)입니다. 최소 사용량 제한도, 만료되는 크레딧도, 예상치 못한 토큰 부풀리기도 없습니다. 요청당 비용을 지불하며, 대시보드는 1센트 단위까지 실시간 비용을 보여줍니다.

이것이 만능 해결책(silver bullet)은 아닙니다. 세상에 그런 것은 없으니까요. 하지만 다섯 개의 서로 다른 API 키를 관리하고 이번 달 청구서가 또 두 배로 늘어나지는 않을지 걱정해야 하는 정신적 과부하(mental overhead)를 제거해 주었습니다. 우리 팀에게는 그 평온함만으로도 충분한 가치가 있습니다.

교훈은 무엇일까요? AI API는 강력하지만, 그 가격 책정 방식은 지뢰밭과 같습니다. 홈페이지에 적힌 단순한 숫자들을 믿지 마세요. 세부 조항(fine print)을 파고들고, 실제 트래픽으로 테스트하며, 항상 청구서를 주시해야 합니다. 미래의 당신과 당신의 예산이 고마워할 것입니다.