연간 10배의 가격 하락은 프롬프트 기술이 아닌 아키텍처의 승부수이다
요약
LLM의 성능 계층별 비용이 연간 수십 배에서 수백 배까지 급격히 하락하는 'LLMflation' 현상을 분석합니다. 프롬프트 최적화보다 아키텍처 설계가 비용 효율성 측면에서 더 중요한 전략적 요소임을 강조합니다.
핵심 포인트
- 동일 성능 계층의 LLM 비용은 연간 약 10배~50배씩 급락함
- 프런티어 모델과 이미 배포된 고정 성능 계층의 비용 구조를 구분해야 함
- 토큰 절약을 위한 프롬프트 수정보다 아키텍처 설계가 더 중요함
- 벤치마크에 따라 비용 하락 폭은 연간 9배에서 900배까지 차이 남
지금 이 순간에도 어느 엔지니어는 호출당 180개의 토큰(tokens)을 아끼기 위해 화요일 오후를 바쳐 시스템 프롬프트(system prompt)를 다시 작성하고 있습니다. 변경 사항(diff)은 실재하며, 절감 효과도 실재하지만, 그 노력은 거의 완전히 낭비되고 있습니다. 토큰이 무료라서가 아닙니다—무료가 아닙니다—그 최적화 아래에 있는 전체 비용 곡선이, 코드가 프로덕션(production)에 배포되기도 전에 재작성을 무의미하게 만들 정도로 급격히 붕괴하고 있기 때문입니다.
이것은 AI 구축 과정에서 거의 아무도 로드맵에 가격을 책정하지 않는 부분입니다. 즉, '고정된 성능 계층(fixed capability tier)'의 비용은 연간 약 10배씩 하락합니다. 프런티어(frontier) 모델이 아닙니다—프런티어는 계속 이동하며 비싼 상태를 유지합니다. 고정된 계층 말입니다. "GPT-4 수준의 출력" 비용은 2023년에는 한 가지 가격이었으나, 오늘날 동일한 답변을 얻는 데 그 비용의 아주 작은 일부만 소요됩니다. 그 가격을 기준으로 최적화하는 것은 반감기가 몇 달 단위로 측정되는 숫자를 기준으로 최적화하는 것과 같습니다.
숫자는 실재하며, 매우 잔혹하다
전형적인 프레임워크부터 시작하겠습니다. Andreessen Horowitz의 Guido Appenzeller는 2024년 11월 12일에 **"LLMflation"**을 발표했으며, 핵심적인 발견은 여전히 유효합니다. 즉, 동등한 성능을 가진 LLM의 비용은 연간 약 10배씩 하락한다는 것입니다. 그들의 예시는 거의 터무니없을 정도입니다. GPT-3 수준의 품질(대략 MMLU 42)은 2021년 11월에 100만 토큰당 약 $60였으나, Llama 3.2 3B를 통해 100만 토큰당 약 $0.06로 떨어졌습니다. 이는 3년 만에 약 1,000배의 붕괴입니다. 더 어려운 MMLU-83 계층은 2023년 3월 GPT-4가 출시된 이후 약 62배 하락했습니다.
Epoch AI의 가격 추세 분석(데이터 인사이트 날짜: 2025년 3월 12일)은 이를 더욱 날카롭게 다듬고 필요한 주의 사항을 추가합니다. 하락 속도는 빠르지만 어떤 벤치마크(benchmark)를 기준으로 잡느냐에 따라 연간 9배에서 900배까지 차이가 나는 불균등한 양상을 보입니다. 중앙값은 연간 약 50배이며, 2024년 1월 이후의 데이터에 대해서는 연간 200배를 향해 상승하고 있습니다. GPQA-Diamond에서 GPT-4 수준의 성능을 내는 비용은 연간 약 40배씩 저렴해졌습니다. 어떤 벤치마크를 선택하느냐에 따라 배수가 달라지겠지만, 이 숫자를 정직하게 표현한 모든 버전은 엄청난 규모를 보여줍니다.
그리고 Stanford AI Index (2025년 버전)에 따르면: MMLU에서 약 64.8%를 기록하는 GPT-3.5 수준의 출력을 실행하는 비용은 2022년 11월 100만 토큰당 $20에서 2024년 10월 100만 토큰당 $0.07로 하락했습니다. 이는 동일한 수준의 답변을 얻기 위해 약 18개월 동안 280배 이상 저렴해진 것입니다.
프런티어 (Frontier)는 계속해서 비싼 상태를 유지하며 움직이는 목표물입니다. 당신이 실제로 배포하여 사용 중인 역량은 계속해서 낮아지는 바닥(falling floor)입니다. 이 두 가지를 혼동하는 것이 현재 AI 제품에서 발생하는 가장 흔한 전략적 오류입니다.
오늘날의 가격표를 보십시오
2026년 6월 기준으로, 그 격차가 모든 이야기를 말해줍니다. 프런티어 모델인 GPT-5.5는 100만 토큰당 입력(in) 약 $5 / 출력(out) $30 수준입니다 (Artificial Analysis, 2026년 4월 23일). 반면 DeepSeek V4-Flash는 입력 $0.14 / 출력 $0.28이며, 캐시 히트 (cache hits) 시에는 100만 토큰당 무려 $0.0028입니다. Moonshot의 Kimi K2.6은 Intelligence Index에서 4위권(~43)에 위치하며 $0.95 / $4.00 수준으로, 혼합 시 100만 토큰당 약 $0.70입니다. Gemini 3.1 Pro는 보고된 바에 따르면 $2 / $12 근처에 도달했습니다 (2차 보고 자료이므로 정확한 수치는 유동적으로 취급하십시오).
그 격차를 응시하십시오. 저가형 계층(cheap tier)은 이제 프런티어 모델보다 두 자릿수(two orders of magnitude)나 낮으며, 그 자체로 작년의 프런티어급 추론 능력을 실행하고 있습니다. 이것이 바로 단 하나의 가격 페이지에 얼어붙어 있는 곡선(curve)입니다. 당신이 2026년 6월에 시장 최고가로 지불하고 있는 것이 무엇이든, 2027년 중반까지는 무언가가 그 기능의 90%를 10분의 1 가격으로 수행할 것입니다. 이것은 낙관론이 아닙니다. 그것은 기본율 (base rate)입니다.
이것이 아키텍처 결정인 이유
만약 당신이 진심으로 10배라는 숫자를 믿는다면—그리고 데이터는 믿지 않을 여지를 거의 남기지 않습니다—올바른 대응은 전술적인 것이 아니라 구조적이어야 합니다. 오늘 당신이 아끼는 토큰은 어차피 한 자릿수(an order of magnitude)만큼 떨어질 가격에 비하면 반올림 오차 (rounding error)에 불과합니다. 실제로 복리로 작용하는 것은, 당신의 시스템이 재작성(rewrite) 없이 하단의 모델을 교체 (swap the model underneath it) 할 수 있는지 여부입니다.
구체적으로, 이는 다음과 같은 의미를 갖습니다:
-
모델을 기반(foundation)이 아닌 하나의 구성 요소(component)로 취급하십시오. 단일화된 인터페이스를 구축해야 합니다. 즉, 프롬프트를 입력하면 구조화된 결과가 출력되는 방식이어야 하며, 제공자나 모델은 40개의 호출 지점(call sites)에 하드코딩되는 것이 아니라 설정 값(config value) 뒤에 숨겨져 있어야 합니다.
-
영리한 프롬프트 스캐폴딩(prompt scaffolding)을 구축하기 전에 평가 하네스(evaluation harness)를 구축하십시오. 다음 분기에 출시될 더 저렴한 모델을 단 몇 시간 만에 도입할 수 있게 해주는 것은, 모델 교체 후 품질이 유지되었는지를 객적으로 알려주는 테스트 세트입니다. 이것이 없다면 모든 마이그레이션은 신념에 의존한 도박이 될 것이며, 두려움 때문에 비싼 모델에 계속 머물게 될 것입니다.
-
가격이 저렴해지지 않는 부분에 복잡성을 집중하십시오. 검색(retrieval), 데이터 품질, 가드레일(guardrails), UX 등은 연간 10배씩 가격이 하락하지 않습니다. 모델만이 그렇습니다. 모델 특화된 글루 코드(glue code)에 과도하게 투자하는 것은, 증발하고 있는 단 하나의 레이어에 투자하는 것과 같습니다.
특정 제공자의 정확한 응답 형식, 특정 모델의 기벽(quirks), 특정 벤더의 미세 조정된 체크포인트(fine-tuned checkpoint)에 강하게 결합(hard-couple)된 팀은 곧 사라질 제약 사항 주위에 해자(moat)를 구축한 셈입니다. 그들은 "영원히 비싼" 상태를 위해 설계했습니다. 하지만 비싼 상태는 영원하지 않습니다.
"6개월을 기다리는 것"이 올바른 결정일 때
대부분의 로드맵이 거부하는 역발상적인 제품 전략이 있습니다. 때로는 아직 기능을 구축하지 않는 것이 올바른 결정일 수 있다는 점입니다. 만약 어떤 기능이 기술적으로는 오늘 가능하지만, 최첨단(frontier) 가격을 지불해야만 하고 성능도 간신히 작동하는 수준이라면, 당신은 두 분기 뒤면 저렴하고 신뢰할 수 있게 될 기능의 취약한 버전을 출시하기 위해 프리미엄을 지불하고 있는 것입니다. 핵심 기능이 아닌 경우, 기다리는 것은 게으름이 아닙니다. 그것은 자본 규율(capital discipline)입니다. 기술 곡선(curve)이 당신을 대신해 엔지니어링을 수행하도록 두는 것입니다.
이 규율은 어떤 기능이 그러한지에 대해 아는 것입니다. 만약 그 기능이 당신의 제품 그 자체라면—즉, 고객이 비용을 지불하는 핵심이자 경쟁사가 따라올 수 없는 요소라면—지금 최첨단 가격으로 구축하십시오. 그리고 하한선(floor)이 내려감에 따라 마진을 회복하면 됩니다. 핵심 차별화 요소에서 선점하는 비용은 거의 항상 가치가 있지만, "있으면 좋은(nice to have)" 기능에서 선점하는 비용은 거의 가치가 없습니다.
미세 조정(Fine-tuning)의 함정
이 지점이 바로 아키텍처(architecture)에 대한 베팅이 가장 뼈아프게 다가오는 부분입니다. 미세 조정(Fine-tuning)은 더 작고 저렴한 모델을 쥐어짜서 특정 작업에 대해 더 큰 모델과 맞추는, 마치 책임감 있는 선택처럼 느껴집니다. 하지만 미세 조정은 기술 곡선(curve)에 '반하는' 베팅입니다. 당신은 특정 시점의 특정 베이스 모델(base model)에 노력, 그리고 종종 데이터 파이프라인(data pipelines)과 서빙 인프라(serving infrastructure)를 고착시키게 됩니다. 그러다 베이스 모델이 개선되고 가격이 낮아지면, 당신이 힘들게 얻은 미세 조정 모델은 좋은 프롬프트(prompt)로 새로운 베이스 모델을 호출하는 것보다 더 성능이 낮고 더 비싼 옵션이 되어버립니다.
제가 옹호하는 규칙은 다음과 같습니다: 프롬프팅(prompting)과 검색(retrieval)을 결합한 방식이 실제 평가(eval)에서 명백히 실패하기 전까지는 미세 조정을 하지 마십시오. 설령 미세 조정을 하더라도 작동하는 가장 가벼운 개입 방식을 선호하십시오. 미세 조정은 형식(format), 어조(tone), 변하지 않을 독점적 분류 체계(proprietary taxonomy)와 같이 지속 가능한 것을 위해 수행해야 합니다. 다음 베이스 모델이 공짜로 제공할 원시 능력(raw capability)을 위해 수행해서는 안 됩니다. 특정 체크포인트(checkpoint)에 종속되는 것은 활발하게 하락하고 있는 가격 하한선에 종속되는 것과 같습니다. 당신은 그 반대, 즉 하락하는 가격 하한선을 타고 내려갈 수 있는 능력을 원해야 합니다.
내일의 저가형 계층(cheap-tier)에 대한 베팅
AI 제품의 모든 아키텍처 결정은 암묵적으로 12개월 후에 어떤 모델을 실행하게 될지에 대한 베팅입니다. 대부분의 팀은 아무런 조치를 취하지 않음으로써, 오늘 실행하고 있는 모델을 계속 사용할 것이라는 데 베팅합니다. 그것은 패배하는 베팅입니다. 승리하는 베팅은 오늘의 프론티어 모델(frontier model)이 내년의 저가형 계층(cheap tier)이 될 것이라는 믿음입니다. 따라서 모델 교체를 아주 사소한 일로 만들 수 있도록 구축하고, 기술 곡선이 건드릴 수 없는 레이어(layers)에 희소한 엔지니어링 노력을 쏟아야 합니다.
토큰(token) 수를 세는 것을 멈추십시오. 당신이 프롬프트 골프(prompt golf)를 하든 안 하든 가격은 10배 하락할 것입니다. 교체 구조를 만들고, 평가(eval) 체계를 구축하십시오. 그리고 나머지는 LLM 인플레이션(LLMflation)이 해결하게 두십시오. 오늘 당신이 최적화하고 있는 제약 조건에는 만료일이 있습니다. 마치 그 사실을 믿고 있는 것처럼 설계하십시오.
AI 자동 생성 콘텐츠
본 콘텐츠는 Dev.to AI tag의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기