2026년 스타트업을 위한 가장 저렴한 LLM API

저는 AI API의 가격 책정 방식을 배우고 있는 데이터 과학 전공 학생입니다. 저는 OpenRouter를 통해 에이전트 기반 코딩 (agentic coding) 세션을 실행하는데, 여기서 모든 코드 생성 루프는 제가 거의 이해하지도 못하는 300개 이상의 이름 목록에서 선택한 모델로부터 새로운 토큰 배치를 가져옵니다. 어떤 루프는 몇 센트가 들고, 어떤 루프는 몇 달러가 듭니다. 총비용은 예상보다 훨씬 빠르게 쌓입니다.

그래서 이를 위한 계산기를 만들었습니다. 아래 블로그 포스트는 그 과정에서 제가 배운 내용입니다.

2026년 중반 OpenRouter에서 가장 저렴한 유료 모델들은 오픈 웨이트 (open-weights) 카테고리에 모여 있습니다. Meta의 Llama 3.1 8B Instruct는 입력 토큰 100만 개당 $0.02, 출력 토큰 100만 개당 $0.03입니다. Microsoft의 Phi-4는 $0.07/$0.14입니다. $0.10/$0.32인 Llama 3.3 70B는 가장 저렴한 70B급 모델입니다. $0.35/$0.56인 Mistral Small 3.1 24B는 중간 계층 대역에서 가장 저렴한 비-Meta 옵션입니다.

이 모델들의 호출당 비용은 낮은 볼륨에서는 사실상 무료나 다름없습니다. Llama 3.1 8B를 사용한 채팅 형태의 호출(입력 1,000 + 출력 500)은 $0.000035입니다. 월 100만 회 호출 시 이는 $35입니다. GPT-4o에서의 동일한 호출은 $0.0075로, 월 $7,500에 달합니다. 저렴한 모델들은 어려운 작업에서의 품질을 일부 희생하는 대신 200배의 비용 절감을 제공합니다.

따라서 호출당 비용이 매출의 의미 있는 부분을 차지하는 모든 제품에 있어 저렴한 계층 (cheap tier)은 적절한 시작점입니다.

무료 계층 (The free tier)

OpenRouter는 입력 $0, 출력 $0인 26개의 모델을 나열하고 있습니다. 이 목록에는 Llama 3.2 3B Instruct, 여러 Gemma 4 변체, Liquid의 LFM 2.5 1.2B, 그리고 소수의 커뮤니티 미세 조정 (finetuned) 오픈 웨이트 모델들이 포함되어 있습니다. 이들은 슬러그(slug)에 :free 접미사가 붙어 있습니다.

무료 모델은 프로토타이핑 도구이지, 프로덕션 도구가 아닙니다. 속도 제한 (rate limits)은 유료 계층보다 더 엄격합니다 (일반적으로 분당 수백 회가 아니라 단 몇 회의 요청만 가능). 지연 시간 (latency)은 연구소의 GPU 가용성에 따라 달라집니다. 연구소들은 별다른 통지 없이 모델을 중단할 권리를 보유합니다.

무료 모델로 시작하여 실제 트래픽으로 성장하는 스타트업은 한두 분기 내에 유료 티어 (paid tier)로 전환하기 위한 마이그레이션 계획 (migration plan)이 필요합니다. 무료 티어는 평가 (evaluation) 용도로는 훌륭합니다. 하지만 유료 고객을 대상으로 하기에는 적합하지 않습니다.

만약 실제 워크로드 (workload)를 위해 Llama 3.1 8B와 Mistral Small 사이에서 고민 중이라면, Llama 3.2 3B와 Gemma 4 31B를 대상으로 수천 건의 무료 요청을 실행하여 해당 모델 제품군이 경쟁력이 있는지 확인하십시오. 무료 티어는 해커톤 프로젝트, 데모, 그리고 모든 비프로덕션 (non-production) 트래픽을 처리하기에도 적합한 장소입니다.

프로덕션 (production) 환경에서 무료 모델을 사용하는 것은 언제 터질지 모르는 잠재적 부채 (liability)와 같습니다.

저렴한 모델이 잘하는 것

저렴한 모델들은 플래그십 (flagship) 모델들이 잘하는 것과 동일한 작업들을 잘 수행하지만, 분포의 난이도가 높은 영역에서는 품질 저하 (quality penalty)가 발생합니다. 구체적으로는 다음과 같습니다:

분류 (Classification). 감성 분석 (sentiment analysis), 주제 라벨링 (topic labeling), 의도 탐지 (intent detection), 그리고 출력이 N개의 사전 정의된 카테고리 중 하나인 모든 작업입니다. Llama 3.1 8B와 Phi-4는 표준 분류 벤치마크 (classification benchmarks)에서 모두 플래그십 모델들과 경쟁할 만한 수준입니다.

추출 (Extraction). 비정형 텍스트 (unstructured text)에서 구조화된 데이터 (structured data)를 뽑아내는 작업입니다. 이름, 날짜, 금액, 주소 등이 이에 해당합니다. 저렴한 모델들은 대부분의 프로덕션 배포 환경에서 플래그십 모델과의 격차를 좁힐 수 있는 수준으로 워크로드를 처리합니다.

단문 생성 (Short-form generation). 이메일 제목, 광고 카피 (ad copy), 푸시 알림 (push notifications), 트윗 크기의 완성문 등이 있습니다. 저렴한 모델들은 길이에 따른 병목 현상이 없으며, 출력물이 충분히 짧기 때문에 품질 차이가 눈에 띄는 경우가 드뭅니다.

라우팅 (Routing). 저렴한 모델을 호출하여 분류하거나 추출하게 한 뒤, 저렴한 모델이 작업이 어렵다고 판단할 때만 플래그십 모델로 에스컬레이션 (escalating)하는 방식입니다. 이는 제가 발견한 비용 절감을 위한 가장 높은 ROI (return on investment) 패턴입니다. 대부분의 호출은 플래그십 모델이 필요하지 않습니다. 플래그십이 필요한 호출은 대개 사전에 명확히 드러납니다.

언제 졸업(전환)해야 하는가

다음 세 가지 중 하나가 사실일 때 졸업하십시오:

분포의 어려운 끝단(hard end)에서의 품질이 리텐션(retention, 유지율)을 해치고 있을 때. 사용자는 모델이 엣지 케이스(edge cases)를 놓칠 때 이를 알아차립니다.
플래그십(flagship) 모델의 추론 토큰(reasoning tokens)이 제값을 하고 있을 때. 추론 토큰(o1, o3, extended thinking 기능이 포함된 Claude, Gemini 2.5 Thinking)은 출력(output) 요율로 과금됩니다. 이 토큰들이 실제로 문제를 해결할 때 그 가치가 있습니다.
저가형 모델과 플래그십 모델 간의 비용 차이가 절대적인 수치로 의미가 있을 만큼 사용량이 충분할 때. 월 100만 회 호출 시에는 저가형 티어가 수천 달러를 절약해 줍니다. 월 100회 호출 시의 절약액은 무시해도 될 수준(noise)입니다.

성급하게 졸업하지 마십시오. 저가형 모델은 대부분의 프로덕션(production) 작업에서 격차를 좁혔습니다. 저가형 티어가 병목 현상(bottleneck)이라는 증거가 있을 때 플래그십을 찾으십시오, 그 전에는 안 됩니다.

저는 이러한 종류의 비교를 10개의 브라우저 탭 대신 클릭 한 번으로 할 수 있도록 AI Cost Calculator를 만들었습니다. 무료이며, 가입이 필요 없고, 336개 모델에 대한 실시간 OpenRouter 가격을 제공합니다. 제가 직접 비용 디버깅(cost debugging)을 하며 배운 것들을 모아 만들었습니다.

2026년 스타트업을 위한 가장 저렴한 LLM API

요약

핵심 포인트

무료 계층 (The free tier)

저렴한 모델이 잘하는 것

언제 졸업(전환)해야 하는가

댓글