Mistral Large vs Mistral Medium: 프로덕션 환경에서의 CTO 노트

상황은 이렇습니다: Mistral Large vs Mistral Medium: 프로덕션 환경에서의 CTO 노트

3개월 전, 저는 LLM (Large Language Model) 기반의 견고한 기능을 프로덕션 환경에 배포했습니다. 그러다 청구서를 받고 나서야 제가 지난 몇 달 동안 Mistral Large와 Mistral Medium 사이에서 잘못된 결정을 내리고 있었다는 사실을 깨달았습니다. 이 글은 제가 그런 결정을 내리기 전에 알았더라면 좋았을 내용입니다. 단순한 느낌(vibes)이 아니라 실제적인 아키텍처 선택을 해야 하는 스타트업 운영자들을 위해 작성되었습니다.

솔직히 말씀드리겠습니다. 핵심을 돌려 말하지 않겠습니다. 2026년에 Mistral Large와 Mistral Medium 사이에서 선택하는 것은 모델 품질에 대한 철학적 논쟁이 아닙니다. 그것은 확실한 ROI (투자 대비 수익) 영향을 미치는 아키텍처 결정입니다. 만약 여러분이 저처럼 소규모 팀을 운영하며, 번레이트 (burn rate)를 주시하고, 실제로 성과를 낼 수 있는 기능을 출시하려고 노력하고 있다면, 모호한 비교를 할 시간 따위는 없습니다.

잘못된 결정을 내렸을 때 이 결정이 뼈아픈 이유

우리 제품에 LLM을 처음 통합하기 시작했을 때, 저는 기본적으로 가장 큰 모델을 선택했습니다. 전형적인 실수였습니다. 제 논리는 단순했습니다: 더 크다 = 더 좋다 = 더 안전하다. 제가 고려하지 못한 점은

저는 제가 비교하던 모델들의 실제 가격을 직접 확인해 보았습니다. 제가 결정을 내릴 때 살펴본 내용은 다음과 같습니다:

모델	입력 ($/M)	출력 ($/M)	컨텍스트 (Context)
DeepSeek V4 Flash	0.27	1.10	128K
...

Mistral Large와 Mistral Medium 모두 이 정도 범위에 위치합니다. 저에게 정확한 달러 수치보다 더 중요한 사실은, 입력 $2.50, 출력 $10.00인 GPT-4o가 이러한 가성비 옵션들보다 대략 10배 더 비싸다는 점입니다. 이것은 단순한 반올림 오차 수준이 아닙니다. 이것은 전략적인 결정 지점입니다.

만약 여러분이 대량의 데이터를 처리하고 있다면 — 그리고 유료 고객을 보유한 스타트업이라면 반드시 그러할 것입니다 — GLM-4 Plus나 Mistral Medium이 충분히 잘 처리할 수 있는 작업에 GPT-4o를 실행하는 팀이 되어서는 안 됩니다. 저는 너무나 많은 스타트업이 바로 이 실수 때문에 자신들의 런웨이 (Runway)를 태워버리는 것을 보았습니다.

제가 현재 실제로 결정을 내리는 방법

결제 관련 사건 이후, 저는 더 규율 있는 프레임워크 (Framework)를 구축했습니다. 단순하지만 효과적입니다.

1단계: 모든 LLM 호출을 복잡도 (Complexity)에 따라 분류합니다. 단순한 분류인가요? 구조화된 추출 (Structured extraction)인가요? 아니면 다단계 추론 (Multi-step reasoning) 작업인가요? 그 질문에 대한 답이 제가 어떤 모델 계층 (Model tier)을 선택할지를 결정합니다.

2단계: 토큰 볼륨 (Token volume)을 추정합니다. 대충 짐작하지 마세요. 실제로 추정하십시오. 로그를 확인하세요. 예상 성장률을 곱하세요. 그런 다음 해당 볼륨에서 각 모델 계층의 비용이 얼마인지 계산하십시오.

3단계: 실제 평가 (Evals)를 통해 품질을 측정합니다. 느낌(Vibes)이나 "이게 더 똑똑한 것 같다"는 식의 판단이 아닙니다. 저는 홀드아웃 테스트 세트 (Held-out test set)를 두 모델 모두에 실행하고, 제 제품에 실제로 중요한 지표 (Metrics)를 기준으로 비교합니다.

제 워크로드 (Workload)의 대부분에서는 Mistral Medium이 승리합니다. Mistral Large가 나쁘다는 것이 아니라, 제가 LLM에게 시키고자 하는 일의 60~70%에 대해서는 Medium으로도 충분히 훌륭하다는 것입니다. 그리고 그 "충분히 훌륭함"의 차이는 규모가 커질수록 실제 비용 절감으로 복리 효과를 일으킵니다.

제가 실제로 배포하는 코드

제가 실제로 배포하는 코드의 모습은 다음과 같습니다. 저는 Global API의 통합 엔드포인트(unified endpoint)를 가리키는 OpenAI SDK를 사용합니다. 이는 플랫폼의 모든 모델에 작동하며, 이는 벤더 종속성 (vendor lock-in) 측면에서 매우 큰 이점입니다. 만약 Mistral이 다음 분기에 가격을 인상한다면, 저는 5분 만에 DeepSeek으로 교체할 수 있습니다.

import openai
import os

...

이것은 Mistral Medium 호출입니다. 이 모델은 제 일일 토큰 소비량의 약 70%를 차지하는 고객 지원 티켓 분류 (support ticket classification)를 처리하고 있습니다. 품질은 괜찮은 수준입니다. 비용은 동일한 작업에 대해 Mistral Large가 청구할 금액의 약 3분의 1 수준입니다.

더 어려운 작업, 즉 진정으로 최첨단 지능 (frontier intelligence)이 필요한 작업의 경우, 저는 모델을 격상합니다:

def handle_complex_reasoning(prompt: str) -> str:
    response = client.chat.completions.create(
        model="mistralai/Mistral-Large",
...

핵심 통찰은 이것입니다: 저는 하나의 모델을 선택해 모든 것에 사용하지 않습니다. 대신 쉬운 작업은 Medium으로 보내고, Large는 실제로 필요한 작업에만 남겨두는 라우팅 로직 (routing logic)을 구축하고 있습니다.

벤더 종속성 (Vendor Lock-In) 문제

이것은 아무도 이야기하지 않는 부분입니다. 여러분의 전체 스택을 단일 제공업체에 전적으로 맡길 때, 여러분은 그들이 가격을 안정적으로 유지하고, API를 안정적으로 유지하며, 모델 품질을 경쟁력 있게 유지할 것이라는 데 도박을 거는 것입니다. 저는 이 업계에 충분히 오래 머물렀기에, 그 도박은 대개 패배한다는 것을 알고 있습니다.

제가 모든 것을 Global API를 통해 라우팅하는 이유는 바로 이것 때문입니다. 하나의 SDK, 하나의 결제 관계, 그리고 184개의 모델입니다. 만약 Mistral이 가격을 대폭 인상한다면, 저는 설정(config)에서 문자열 하나만 바꾸면 바로 DeepSeek에서 구동할 수 있습니다. 만약 Qwen의 새로운 모델을 A/B 테스트하고 싶다면, 같은 날 오후에 바로 실행할 수 있습니다.

OpenAI나 Anthropic과의 직접적인 통합에 종속되어 있을 때 이를 시도해 보십시오. 불가능합니다. 그리고 여러분이 그것을 할 수 없는 바로 그 순간이 여러분의 협상력 (negotiating leverage)이 제로가 되는 순간입니다.

저는 이전 회사에서 이 교훈을 뼈아프게 배웠습니다. 당시 저희는 주요 모델 제공업체와 직접적인 관계를 맺고 있었습니다. 그들이 가격을 30% 인상했을 때, 저희에게는 세 가지 선택지가 있었습니다. 더 많은 비용을 지불하거나, 패닉 상태에서 통합 (integration) 구조를 재구축하거나, 아니면 저하된 품질을 받아들이는 것이었습니다. 이 중 그 어떤 것도 스타트업이 처하기에 좋은 상황은 아닙니다.

실제로 중요한 ROI 계산법

실제 수치를 대입해 보겠습니다. 여러분이 한 달에 1억 개의 토큰을 처리한다고 가정해 봅시다 (성장하는 SaaS 스타트업에게는 흔한 일입니다).

모든 작업에 Mistral Large 사용: 월 약 $X (그들의 공시 요율을 기준으로 계산 — 보통 Medium의 약 3배)
모든 작업에 Mistral Medium 사용: 비용이 약 1/3 수준
하이브리드 라우팅 (Hybrid routing) (Medium 70%, Large 30%): 그 중간 어디쯤에 위치하며, 어려운 작업에서는 훨씬 더 나은 품질을 제공함

제가 실제 프로덕션 로그에서 확인하는 40~65%의 비용 절감은 마케팅용 주장이 아닙니다. 이는 일반 망치(regular hammer)가 필요한 작업에 슬레지해머(sledgehammer)를 사용하는 것을 멈출 때 발생하는 실제 결과입니다.

스타트업에게 이러한 효율성은 단순히 돈을 아끼는 것 이상의 의미를 갖습니다. 이는 여러분이 출시할 수 있는 기능 자체를 바꿉니다. 사용자당 비용이 낮아지면, 무료 티어 (free tiers), 더 긴 컨텍스트 윈도우 (context windows), 더 관대한 속도 제한 (rate limits)을 제공할 여력이 생깁니다. 이러한 요소들은 경쟁 우위가 됩니다.

제가 추적하는 프로덕션 지표

저는 더 이상 모델 품질에 대해 제 직감을 믿지 않습니다. 대신 다음을 추적합니다:

지연 시간 (Latency): 평균 응답 시간이 약 1.2초 정도인데, 이는 비동기 패턴 (async patterns)을 과도하게 설계할 필요가 없을 정도로 충분히 빠릅니다.
처리량 (Throughput): 이 모델들 전반에서 보이는 수치는 초당 320 토큰 정도이며, 이는 대부분의 사용 사례에 적합합니다.
벤치마크 점수 (Benchmark scores): 제가 실행하는 모델들의 평균 84.6% — 이는 표준 평가 스위트 (eval suite)를 실행했을 때 나타나는 수치입니다.
사용자 만족도 (User satisfaction): 실제로 유일하게 중요한 지표입니다. 저는 모든 모델 응답에 대한 '좋아요/싫어요 (thumbs up/down)'를 추적하며 그에 따라 라우팅합니다.

마지막은 모든 스타트업 CTO에게 반드시 구현하라고 권하고 싶은 것입니다. 측정할 수 없는 것은 최적화할 수 없습니다. 그리고 벤더(vendor)의 벤치마크(benchmark)가 사용자의 경험을 예측할 것이라고 믿어서는 안 됩니다.

더 일찍 했더라면 좋았을 것들

어렵게 얻은 몇 가지 교훈입니다:

공격적으로 캐싱(Cache)하세요. 대부분의 LLM 애플리케이션에서 40%의 캐시 히트율(cache hit rate)은 현실적인 수치이며, 이는 비용을 그에 비례하여 절감해 줍니다. 저는 단순히 정확히 일치하는 경우뿐만 아니라 프롬프트 유사도(prompt-similarity) 수준에서 캐싱을 수행합니다. 커버리지 측면에서 그 차이는 매우 큽니다.

응답을 스트리밍(Stream)하세요. 엄격하게 필요하지 않은 상황에서도 저는 스트리밍을 사용합니다. 체감 지연 시간(perceived latency)이 훨씬 좋아져서 사용자들이 경험에 더 높은 점수를 주며, 실제로 토큰(token) 비용을 더 지불하는 것도 아닙니다. 공짜로 얻는 이득(Free win)입니다.

폴백(Fallback) 로직을 구현하세요. 모든 LLM 호출에는 우아한 성능 저하(graceful degradation) 경로가 있어야 합니다. 만약 Mistral Large가 속도 제한(rate-limited)에 걸린다면, Mistral Medium으로 폴백하세요. 만약 그것마저 속도 제한에 걸린다면, GLM-4 Plus로 폴백하세요. 어떤 경우든 사용자는 답변을 받게 되며, 여러분은 사용자 참여(engagement)를 잃지 않을 것입니다.

너무 일찍 최적화하지 마세요. 저는 어떤 모델을 사용해야 할지 알기도 전에 프롬프트 엔지니어링(prompt engineering)에 한 달을 소비했습니다. 그것은 잘못된 순서입니다. 먼저 모델을 선택하고, 그다음 프롬프트를 최적화한 뒤, 실제 트래픽이 발생하면 다시 돌아와 모델을 재평가하세요.

컨텍스트 윈도우(Context window)를 주시하세요. Mistral Medium의 컨텍스트 윈도우는 Large보다 작습니다. 100K 이상의 토큰 컨텍스트가 필요한 작업이 있다면 선택의 여지가 없습니다. Large(또는 더 큰 윈도우를 가진 모델)가 필요합니다. 제가 앞서 공유한 가격 데이터에 컨텍스트 윈도우 크기가 포함된 데에는 이유가 있습니다.

여러분이 던져야 할 진짜 질문

Mistral Large와 Mistral Medium 사이에서 고민할 때, 질문은 "어느 것이 더 나은가"가 아닙니다. 질문은 "이 특정 워크로드(workload)와 이 특정 볼륨(volume)에 어느 것이 더 나은가"여야 합니다.

일회성 개인 프로젝트라면 그냥 원하는 것을 사용하세요. 하지만 매달 수백만 개의 토큰을 처리하는 프로덕션 시스템(production system)이라면, 여러분 자신과 회사의 자금 여력(runway)을 위해서라도 신중하게 선택해야 합니다.

솔직한 답변을 드리자면, 대부분의 스타트업은 자신들에게 필요하지 않은 모델 품질을 위해 과도한 비용을 지불하고 있습니다. 이는 Large 모델이 나쁘기 때문이 아니라, Medium 모델이