LLM API 가격 현황: 2026년 7월

원래 TierUp 블로그에 게시되었습니다.

만약 당신이 1년 전 모델 가격표를 마지막으로 보았다면, 가장 중요하게 변한 단 한 가지는 특정 수치가 아닙니다. 바로 그 격차(spread)입니다. 이번 달 기준으로, 공개된 토큰당 가격은 최저 수준인 입력 토큰 100만 개당 약 $0.075 (APIpulse의 2026년 6월 설문 조사 기준 Gemini 2.5 Flash-Lite)부터 최고 수준인 입력 $30 / 출력 $180 (APIpulse, CloudZero, CostGoat를 통해 확인된 OpenAI의 GPT-5.5 Pro 티어)까지 형성되어 있습니다.

이는 대략 입력에서 400배, 출력에서 600배의 격차를 의미합니다. 당신의 코드상에서는 동일해 보이는 두 개의 API 호출이, 단 하나의 문자열인 '모델 이름'에 따라 비용 면에서 두 자릿수(two orders of magnitude) 이상의 차이가 날 수 있습니다.

한눈에 보는 현황

아래 가격은 100만 토큰당 가격이며, 2026년 5월 11일에서 7월 5일 사이에 업데이트된 세 곳의 트래커를 통해 교차 검증되었습니다. 가격은 변동될 수 있으므로, 예산을 확정하기 전에 제공업체의 페이지를 통해 확인하십시오.

모델	입력 $/M	출력 $/M
GPT-5.5 Pro	$30.00	$180.00
...
겉보기보다 더 중요한 몇 가지 각주가 있습니다:

긴 컨텍스트 (Long context)는 추가 비용이 발생합니다. CloudZero의 데이터에 따르면, Gemini 3.1 Pro는 컨텍스트가 200K 토큰을 초과하면 입력 요율을 두 배로 높이고 (4$/M로), 출력 요율을 18$/M로 인상합니다.
명칭 변경 (Naming churn)은 실재합니다. CloudZero의 5월 스냅샷에서는 $30/$180의 OpenAI 티어(tier)를 "GPT-5.4 Pro"로 기재했으나, APIpulse와 CostGoat는 현재 동일한 가격에 "GPT-5.5 Pro"로 기재하고 있습니다. 모델 명칭이 바뀌더라도 티어는 안정적이므로, 모델 이름이 아닌 티어를 기준으로 계획을 세우십시오.
오픈 웨이트 호스팅 모델 (Open-weight-hosted models)이 최저가를 지지합니다. DeepSeek의 모델들은 $0.27/$1.10 (V3.2, CloudZero)부터 최신 플래시 변형 모델(flash variants)의 경우 $0.14/$0.28 (APIpulse)까지 기재되어 있습니다. 저가형 시장(budget floor)은 이미 포화 상태이며 가격은 계속 하락하고 있습니다.

이 격차가 실제로 당신에게 의미하는 것

중간 티어(middle tier)가 대부분의 프로덕션 작업에 적합한 구간입니다. 우리가 확인한 모든 트래커에서 Claude Sonnet 4.6 ($3/$15)와 GPT-5.4 ($2.50/$15)는 합의된 핵심 작업 모델(workhorses)로 나타났습니다. 이들은 Pro 티어 비용의 약 1/12 수준으로 최첨단(frontier-adjacent) 급의 품질을 제공합니다. $30/$180 티어는 어려운 추론(hard reasoning)에서 측정 가능한 수준의 더 나은 성능을 제공하지만, 실제 워크로드의 대다수를 충분히 처리할 수 있는 모델들보다 12배 더 비쌉니다.

출력 가격 (Output pricing)은 조용한 살인자입니다. 표에 있는 모든 모델은 입력보다 출력에 4~6배 더 많은 비용을 부과합니다. 만약 당신의 워크로드가 생성 중심적(긴 답변, 코드, 보고서 등)이라면, 최적화해야 할 대상은 바로 출력 열입니다. 이는 매우 중요한 주제이기에 저희는 숨겨진 비용 승수(hidden cost multipliers)에 관한 별도의 포스트를 작성하기도 했습니다.

할인은 크지만 제대로 활용되지 않고 있습니다. CloudZero에 따르면, 배치 API (Batch APIs)는 50% 할인이 적용되며, 프롬프트 캐싱 (prompt caching) 할인은 주요 제공업체에서 캐싱된 입력에 대해 최대 90%까지 할인을 제공합니다. 만약 반복되는 접두사(prefixes)에 대해 정가(rack rate)를 지불하고 있다면, 의도치 않게 과다 지불을 하고 있는 것입니다.

불편한 시사점

400~600배에 달하는 가격 차이는 이제 모델 선택이 대부분의 팀이 올해 내릴 그 어떤 인프라 결정보다 더 큰 비용 레버(cost lever)가 되었음을 의미합니다. 가격 차이가 10배였을 때는 모든 호출 경로에 플래그십(flagship) 모델 이름을 하드코딩(Hardcoding)하는 것이 정당화될 수 있었습니다. 하지만 600배 차이가 나는 상황에서는, 이는 지난 3월 이후 아무도 검토하지 않은 설정 파일(config file)에 의해 결정되는 예산 문제입니다.

실질적인 대응 방안: 워크로드(workloads)를 실제로 필요한 품질에 따라 분류하고, 각 클래스를 기준치를 통과하는 가장 저렴한 티어(tier)로 라우팅(route)하며, 분기별로 재점검하십시오. 위에서 언급한 명칭의 급격한 변화(naming churn)가 보여주듯, 지형도는 몇 달마다 새로 그려지기 때문입니다. 이것이 바로 TierUp의 티어 기반 라우팅(tier-based routing)이 자동화하고자 하는 정확한 문제입니다. — 공개 사항: 저는 창립자이며, tierup.ai/try의 티어-1 무료 플레이그라운드(playground)는 직접 확인해보고 싶다면 가입 없이도 이용 가능합니다.

Insights

LLM API 가격 현황: 2026년 7월

요약

핵심 포인트

한눈에 보는 현황

이 격차가 실제로 당신에게 의미하는 것

불편한 시사점

출처

댓글

150만 유로의 자금이 고갈되면서 독일의 거대한 6만 게임 보존 프로젝트가 무너졌습니다 — 세계 최대의 게임 아카이브는 완전히 공개되어

Claude Code를 사용하며 '프롬프트 입력 후 기도하기'를 그만두었습니다. 이제는 AI가 저를 먼저 인터뷰합니다.

Hermes Tweet으로 X/Twitter 워크플로우 자동화하기: 새로운 AI 에이전트 기술

RootCause: 숙취 없는 기억력을 코드베이스에 부여하기

Claude Code를 사용하며 '프롬프트 입력 후 기도하기'를 그만두었습니다. 이제는 AI가 저를 먼저 인터뷰합니다.

Hermes Tweet으로 X/Twitter 워크플로우 자동화하기: 새로운 AI 에이전트 기술

RootCause: 숙취 없는 기억력을 코드베이스에 부여하기