내가 AI 모델을 유행(Hype)이 아닌 속도(Speed)로 선택하기 시작한 이유

3개월 전, 나는 내 챗봇이 느릿느릿하다는 이유로 14,000달러 규모의 리테이너(retainer) 계약을 거의 놓칠 뻔했다. 클라이언트는 "TTFT(Time To First Token)가 너무 높아요"라고 말하지 않았다. 그들은 "멍청하게 느껴져요"라고 말했다. 그것은 프리랜서 업계에서 "사용자들이 이탈하고 있고, 나는 곧 다른 사람을 찾을 것이다"라는 뜻의 암호였다.

나는 6주 전까지만 해도 들어본 적도 없던 모델을 사용하여 주말 동안 그 봇을 다시 구축했고, 평균 응답 시간을 1.4초에서 300ms 미만으로 줄였으며, 클라이언트는 6개월 계약을 연장했다. 그 단 한 번의 피벗(pivot)이 내 월세를 해결해 주었다.

그래서 나는 깊이 파고들기 시작했다. Global API의 통합 엔드포인트(unified endpoint)를 통해 손에 넣을 수 있는 모든 모델에 대해 동일한 속도 테스트를 실행했다. 15개의 모델. 동일한 프롬프트(prompt). 동일한 지역. 모델당 10회의 반복 실행. 내가 이 글을 쓰는 이유는, 만약 당신이 시간당 비용을 청구하거나 아주 적은 예산으로 사이드 허슬(side hustle)을 운영하고 있다면, 속도는 단순한 허영 지표(vanity metric)가 아니라 수익 지표(profit metric)이기 때문이다.

내가 무엇을 발견했는지 보여주겠다.

설정 (테스트를 실제로 수행한 방법)

나는 GPU 랙을 보유한 연구원이 아니다. 나는 M2 MacBook, 월 19달러짜리 Hetzner 서버, 그리고 Python의 time.perf_counter() 형태의 스톱워치를 가진 사람일 뿐이다. 테스트의 객관성을 유지하기 위해 다음과 같이 진행했다.

테스트 날짜: 모든 테스트는 2026년 5월 20일에 수행됨
테스트 지역: US East (Ohio) 및 Asia (Singapore)
사용된 프롬프트: "재귀(recursion)에 대해 200단어로 설명해줘" — 의도적으로 지루하게 설정했는데, 지루한 프롬프트가 실제 대부분의 앱이 처하는 상황이기 때문이다.
출력 길이: 실행당 약 150 토큰(tokens)
반복 횟수: 지역당 모델별 10회 실행 후 평균값 기록
스트리밍(Streaming): 예, 전 과정 SSE(Server-Sent Events) 사용
엔드포인트(Endpoint): https://global-apis.com/v1에 위치한 Global API

나는 두 가지를 측정했다: TTFT (Time To First Token — 사용자가 무언가 움직이는 것을 보기 전까지의 지연 시간)와 지속적인 초당 토큰 수(sustained tokens per second — 그 이후에 실제로 단어가 도착하는 속도)이다. 둘 다 중요하다. TTFT는 "이거 고장 났나?"라는 느낌을 준다. 초당 토큰 수는 "이거 빠르네?"라는 느낌을 준다.

내가 사용한 스크립트는 다음과 같으며, 필수적인 부분만 남겨두었다:

import time
import requests
from statistics import mean
...

이 스크립트를 모델 목록에 실행하면 CSV 파일이 생성됩니다. 그런 다음 초당 토큰 수(Tokens per second)를 기준으로 정렬한 뒤, 어떤 숫자가 실제로 중요한지에 대해 스스로와 논쟁하기 시작했습니다.

결과 — 속도 면에서 실제 승자는 누구인가

가장 빠른 것부터 가장 느린 것 순으로 정리한 전체 리더보드입니다. 가격(Price) 정보도 포함했는데, 그 이유는 제가 부업을 하고 있기 때문입니다. 가격을 고려하지 않은 속도는 학술적인 수준에 불과합니다. 둘 다 중요합니다.

순위	모델	TTFT (ms)	Tokens/sec	제공업체 (Provider)	$/M Output
1	Step-3.5-Flash	120	80	StepFun	$0.15
...

하단에 있는 추론 모델(Reasoning models)들에 대해 한 가지 짧은 참고 사항을 말씀드리자면 — R1, K2.5, K2-Thinking은 모두 첫 번째 가시적 토큰이 나오기 전에 내부적인 사고 단계(Internal thinking phases)를 거치기 때문에 TTFT 수치가 매우 높게(Brutal) 나타납니다. 이는 버그가 아니라 설계된 방식입니다. 만약 채팅 UI에서 눈에 보이는 속도가 필요하다면, 추론 모델은 별도의 "deep think" 엔드포인트를 통해 라우팅하고 메인 채팅 경로에 두지 마세요.

내가 실제로 매일 사용하는 것 (그리고 비용을 청구하는 것)

표를 건너뛰고 바로 말씀드리겠습니다. 클라이언트가 시간당 비용을 지불하고 있고, 제가 선택의 근거를 증명해야 할 때 저는 다음과 같이 생각합니다.

클라이언트가 "즉각적인(Instant)" 반응을 원할 때

TTFT가 200ms 미만이면 인간에게 즉각적인 것으로 느껴집니다. Step-3.5-Flash(120ms)와 Qwen3-8B(150ms)가 이에 해당합니다. 사용자가 채팅창에 타이핑을 하고 엔터 키에서 손을 떼기 전에 응답이 나타나야 하는 UI의 경우, 이 두 모델이 정답입니다.

출력 1M 토큰당 $0.15인 Step-3.5-Flash는 저에게 새로운 챔피언입니다. 150ms 미만의 TTFT와 초당 80토큰의 속도는 그 가격대에서 경이로운 수준입니다. 지난주에 제가 만든 AI 기반 자동 완성 위젯을 이 모델로 옮겼는데, 클라이언트가 Slack 메시지로 "느낌이 달라졌네요, 뭐 바꾼 거 있나요?"라고 보내왔습니다. 이런 종류의 피드백이 바로 추천(Referral)을 불러오는 법입니다.

$0.01/M의 Qwen3-8B는 부업(side-hustle)용으로 특화되어 있습니다. 출력 토큰 100만 개당 단 1센트입니다. 백그라운드 작업(background jobs), 배치 처리(batch processing), 혹은 약간 덜 똑똑한 모델이어도 괜찮고 '느낌(vibes)'보다 작업당 비용(cost-per-task)이 더 중요한 모든 상황에서 이 모델은 타의 추종을 불허합니다.

고객이 "똑똑하면서도 빠른 것"을 원할 때

이것이 제 유료 업무(billable work)의 대부분이 이루어지는 영역입니다. 제 생각에 가장 이상적인 지점(sweet spot)은 DeepSeek V4 Flash입니다. TTFT(첫 토큰 생성 시간) 180ms, 60 tok/s, $0.25/M의 성능을 보여줍니다. 이 모델은 GPT-4o급의 지연 시간(latency) 없이도 GPT-4o급의 품질 계층(quality tier)에 도달합니다. 똑똑하면서도 반응성이 좋아야 하는 고객 대면형 어시스턴트(customer-facing assistant)의 경우, 저는 기본적으로 이 모델을 선택합니다.

만약 고객이 더 높은 추론 품질(reasoning quality)을 위해 비용을 조금 더 지불할 의사가 있다면, 30 tok/s와 $0.78/M의 DeepSeek V4 Pro가 다음 단계입니다. 저는 모델이 조금 더 깊게 생각해야 하지만 여전히 사용 가능한 응답 시간(response time)을 유지해야 하는 도구 호출 에이전트(tool-calling agents)에 이 모델을 사용합니다.

고객이 "지연 시간은 상관없으니 그냥 똑똑하기만 하면 된다"고 할 때

리걸테크(legal-tech) 고객이나 의료 요약(medical summarization) 작업의 경우, 속도는 부차적인 문제입니다. 이러한 작업의 대부분에는 25 tok/s와 $1.92/M의 GLM-5를 선택합니다. 추가적인 품질이 진정으로 필요하고 고객의 예산이 허락한다면 20 tok/s와 $3.00/M의 Kimi K2.5를 사용합니다.

솔직히 말씀드리면, 저는 프로덕션(production) 환경에서 R1이나 Qwen3.5-397B를 거의 사용하지 않습니다. 800ms 이상의 TTFT는 채팅 서비스에서 UX(사용자 경험)의 사형 선고와 같습니다. 만약 그 정도로 강력한 추론(reasoning)이 필요하다면, 저는 이를 서버 측(server-side)에서 작업으로 처리하고 사용자에게는 "생각 중(thinking)" 표시를 보여줍니다.

저를 설득한 유료 업무의 수학(The Billable Math)

다음은 제가 고객에게 모델 선택을 제안할 때 계산하는 방식입니다. 예를 들어, SaaS 제품을 위한 챗봇을 구축하고 있으며 월간 출력 토큰이 500만 개로 예상된다고 가정해 봅시다.

Qwen3-8B 사용 시 ($0.01/M): 월 $50
DeepSeek V4 Flash 사용 시 ($0.25/M): 월 $1,250
Kimi K2.5 사용 시 ($3.00/M): 월 $15,000

만약 제가 고객에게 K2.5를 제안하면, 회의 전체가 비용 이야기로 흘러가 버립니다. 하지만 V4 Flash를 제안하면, 보통 "Notion 계정 두 개를 사용하는 비용보다 적습니다"라고 프레임을 짤 수 있고, 고객은 5분 만에 승인합니다. 핵심은 V4 Flash가 더 빠르다는 점이며, 덕분에 사용자들이 더 오래 머문다는 것입니다. 이는 단순한 비용 논리가 아닌 리텐션 (Retention, 유지율) 논리이며, 고객들은 리텐션 논리를 매우 좋아합니다.

Qwen3-8B의 사례는 배치 작업 (Batch jobs)에 있어 훨씬 더 효과적입니다. 전체 파이프라인을 이 모델로 운영하는 고객이 있는데, 지난달 청구 금액이 4.12달러였습니다. 제가 인보이스 스크린샷을 보내주자, 그들은 제가 농담을 하는 줄 알았습니다.

지리적 요인이 예상보다 훨씬 더 중요하다

제 고객 중 두 명이 APAC (아시아 태평양) 사용자를 보유하고 있기 때문에, 미국 동부 (US East)와 싱가포르 양쪽에서 테스트를 진행했습니다. 차이는 제가 예상했던 것보다 더 컸습니다:

모델	미국 동부 TTFT	아시아 TTFT	차이
DeepSeek V4 Flash	180ms	150ms	-30ms
...

아시아에서 제작된 모델들 (Qwen, GLM, Kimi)은 싱가포르에서 16–20% 더 낮은 지연 시간 (Latency)을 보였습니다. 추론 클러스터 (Inference clusters)가 물리적으로 더 가깝기 때문에 이는 타당한 결과입니다. DeepSeek는 전 세계적으로 인상적일 만큼 일관된 성능을 보여주었습니다. 차이는 단 30ms에 불과했습니다.

만약 아시아에 사용자가 있는데 미국 엔드포인트 (Endpoint)에서 서비스를 제공하고 있다면, 40–120ms의 이점을 놓치고 있는 것입니다. 이는 사용자 인지 측면에서 "빠름"과 "즉각적임"의 차이를 만들며, 월 5,000달러 규모의 계약과 이탈 (Churn)하는 계정 사이의 차이를 결정짓습니다.

속도가 사용자에게 실제로 미치는 영향

이 부분은 제가 2년만 더 일찍 내재화했더라면 좋았을 대목입니다. 7개의 서로 다른 고객 앱에서 얻은 제 자체 분석 대시보드 결과는 다음과 같습니다:

TTFT 범위	사용자의 행동
200ms 미만	"즉각적임" — 이탈률 (Bounce rate)이 일정하게 유지되고, 완료율 (Completion rates)이 높음
...

제가 예상하지 못했던 승수 효과 (Multiplier effect)가 있습니다. 응답이 빠를수록 대화의 _길이_도 짧아진다는 점입니다. 사용자가 봇이 빠릿빠릿하다고 느끼면, 그들은