본문으로 건너뛰기

© 2026 Molayo

Dev.to헤드라인2026. 06. 30. 09:51

OpenAI, Anthropic, Google — 어떤 곳이 조용히 더 비싸지고 있는가?

요약

OpenAI, Anthropic, Google의 LLM API 가격 정책 변화와 그로 인한 숨겨진 비용 발생 문제를 분석합니다. 모델 단종, 새로운 토큰 유형(사고 토큰 등), 컨텍스트 길이 할증 등으로 인해 실제 청구 비용이 예상보다 높아질 수 있음을 경고합니다.

핵심 포인트

  • 모델 단종 시 후속 모델로 자동 리다이렉트되어 비용이 변동될 수 있음
  • Anthropic의 사고 토큰(thinking tokens)은 출력 요율로 과금되어 비용을 높임
  • Google Gemini는 긴 컨텍스트 사용 시 할증료가 부과됨
  • 단순 토큰당 가격 외에 호출당 실제 비용을 고려한 예산 수립 필요

지난달, 혹은 두 달 전쯤 LLM API 가격을 확인하셨을 겁니다. 모델을 하나 선택하고, 그에 맞춰 예산을 세운 뒤 다음 단계로 넘어갔겠죠.

여기에 문제가 있습니다. 당신이 예산을 세웠던 가격이 더 이상 당신이 실제로 지불하고 있는 가격이 아닐 수도 있다는 점입니다.

2026년 1월부터 6월 사이에 OpenAI, Anthropic, Google은 각자의 모델 라인업 전반에 걸쳐 총 14번의 가격 변경을 단행했습니다. 어떤 가격은 내려갔고, 어떤 가격은 야금야금 올라갔습니다. 일부 모델은 지원이 중단(deprecated)되고 더 비싼 후속 모델로 교체되면서 가격 자체가 완전히 사라지기도 했습니다.

이들 중 누구도 이에 대해 당신에게 이메일을 보내지 않았습니다.

아무도 말하지 않는 변화들

OpenAI는 2026년 1분기에 GPT-4 Turbo를 은퇴시켰습니다. 만약 당신의 코드가 여전히 gpt-4-turbo를 가리키고 있었다면, 이는 조용히 GPT-4o로 재라우팅되었습니다. 로그에는 같은 이름이 찍히지만, 가격은 다릅니다. GPT-4o는 기존 Turbo보다 토큰당 가격은 저렴합니다. 하지만 출력 토큰(output token) 요율이 $0.03/M에서 $0.01/M로 변경되었습니다. 언뜻 보면 이득 같지만, 당신의 프롬프트가 Turbo의 동작 방식에 최적화되어 있었다면 이야기가 달라집니다. GPT-4o는 동일한 프롬프트에 대해 30-40% 더 많은 출력 토큰을 생성합니다. 즉, 토큰당 가격은 내려갔지만 호출당 비용(per-call cost)은 올라간 것입니다.

Anthropic은 2026년 5월에 입력(input) 가격 $3.00/M로 Claude Sonnet 4를 출시했습니다. Claude Sonnet 3.5도 $3.00/M였으니, 가격이 같다고 생각하시나요? 꼭 그렇지는 않습니다. Sonnet 4는 복잡한 질의에 대해 기본적으로 확장된 사고(extended thinking)를 사용하며, 이 사고 토큰(thinking tokens)은 출력 요율과 동일하게 과금됩니다. Sonnet 3.5에서 $0.04가 들던 프롬프트가 Sonnet 4에서는 보이지 않는 사고 오버헤드(thinking overhead)로 인해 $0.12가 들 수 있습니다. 세 배나 더 비싸진 셈이지만, 당신의 코드에서는 아무것도 변하지 않았습니다.

Google은 Gemini 2.5 Flash의 입력 가격을 $0.15/M로 유지했습니다. 훌륭한 가격이죠. 하지만 대부분의 팀이 놓친 컨텍스트 길이 할증료(context length surcharge)를 추가했습니다. 128K 토큰을 초과하는 모든 경우 요율이 $0.30/M로 두 배가 됩니다. 만약 긴 문서를 사용하여 RAG(검색 증강 생성)를 수행하고 있다면, 실제 비용은 가격 페이지의 헤드라인에 적힌 것보다 2배 더 높습니다.

청구서가 가격 페이지와 일치하지 않는 이유

세 가지 요소가 그 격차를 만듭니다:

모델 단종 룰렛 (Model deprecation roulettes). 제공업체가 모델을 단종(sunset)시켜도 API 호출이 실패하지는 않습니다. 대신 후속 모델로 조용히 리다이렉트(redirect)됩니다. 이 후속 모델은 비용이 더 비싸거나, 더 많은 토큰을 생성하거나, 혹은 프롬프트가 더 긴 출력을 생성할 정도로 동작 방식이 크게 다를 수 있습니다.

숨겨진 토큰 카테ीय (Hidden token categories). 사고 토큰 (Thinking tokens), 캐시된 토큰 (Cached tokens), 시스템 프롬프트 토큰 (System prompt tokens) — 이들은 2년 전에는 존재하지 않았습니다. 이제 이들은 각각 고유한 요율을 가집니다. Anthropic은 사고 토큰에 대해 전체 출력 요율을 적용합니다. Google은 캐시된 토큰에 대해 75% 할인을 제공하지만, 긴 컨텍스트 (long context)에 대해서는 2배의 요금을 부과합니다. 헤드라인에 적힌 가격은 5~6개의 요소로 구성된 매트릭스 중 단 하나의 숫자에 불과합니다.

조용한 기능 변경 (Quiet feature changes). OpenAI의 구조화된 출력 (structured output) 모드, Anthropic의 확장된 사고 (extended thinking), Google의 코드 실행 (code execution) — 이러한 기능들은 응답에 포함되는 토큰의 양을 변화시킵니다. 제공업체가 새로운 모델 버전에서 특정 기능을 기본값으로 활성화하면, 사용자가 아무것도 하지 않아도 토큰 사용량이 변하게 됩니다.

실제로 누가 더 비싸졌는가

만약 2026년 1월에 코드를 동결하고 6월 청구서를 확인한다면:

다음의 경우 비용을 더 많이 지불하고 있습니다: 복잡한 추론을 위해 Claude를 사용하거나 (사고 토큰 오버헤드), Gemini에 긴 문서를 보내거나 (컨텍스트 추가 요금), 혹은 리다이렉트된 단종 모델에 의존하고 있는 경우입니다.

다음의 경우 비용을 덜 지불하고 있습니다: 단순한 작업을 위해 Gemini 2.5 Flash로 전환했거나 (100만 토큰당 $0.15로 진정으로 저렴함), 출시 이후 가격 변동이 없는 DeepSeek V3를 사용하고 있는 경우입니다.

다음의 경우 알 수 없습니다: 호출당 비용 (cost per call)을 추적하고 있지 않다면 알 수 없습니다. 그리고 대부분의 팀이 여기에 해당합니다. a16z의 2026년 조사에 따르면, LLM API를 사용하는 기업의 71%가 개별 호출 수준에서 지출을 추적하지 않는 것으로 나타났습니다. 이들은 월간 인보이스(invoice)의 항목 하나를 보고 그 금액이 합리적이기를 바랄 뿐입니다.

문제는 제공업체들이 교묘하게 행동한다는 것이 아닙니다. 그들은 모든 가격 변경 사항을 공개합니다. 문제는 아무도 감시하지 않는다는 것이며, 당신이 확인했을 때는 이미 3개월간의 비용 드리프트 (drift)가 예산에 타격을 준 상태일 것입니다.

만약 이번 달 AI 청구서가 당신을 놀라게 했다면, 당신만 그런 것이 아닙니다. Tokonomics는 모델, 기능 및 비용별로 모든 API 호출을 추적하며, 청구서가 도착한 후가 아니라 도착하기 전에 알림을 제공합니다.

가격 데이터 기준일: 2026년 6월 28일.

AI 자동 생성 콘텐츠

본 콘텐츠는 Dev.to AI tag의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0