본문으로 건너뛰기

© 2026 Molayo

Dev.to헤드라인2026. 05. 27. 10:44

15개의 AI 모델 속도를 벤치마킹했습니다 – 놀라운 결과가 기다립니다

요약

15개의 다양한 AI 모델을 대상으로 TTFT(첫 번째 토큰까지의 시간)와 초당 토큰 수(TPS)를 벤치마킹한 결과입니다. 실제 서비스 개발 시 중요한 지연 시간과 비용 효율성을 기준으로 모델별 성능을 비교 분석했습니다.

핵심 포인트

  • Step-3.5-Flash가 80 tok/s로 가장 빠른 속도를 기록함
  • DeepSeek V4 Flash는 속도와 성능의 균형이 뛰어난 올라운더 모델임
  • Qwen3-8B는 매우 저렴한 비용($0.01/M)으로 높은 속도를 제공함
  • 추론 모델은 내부 사고 시간으로 인해 TTFT가 상대적으로 높게 나타남

15개의 AI 모델 속도를 벤치마킹했습니다 – 놀라운 결과가 기다립니다

저는 작은 채팅 앱을 만들고 있습니다. 거창한 것은 아니고, 언젠가 실제 서비스가 될 수도 있는 사이드 프로젝트입니다. 그런데 말이죠, 속도 때문에 정말 힘들었습니다. 코드가 아니라, 바로 지연 시간 (Latency) 때문이었습니다. 사용자가 전송 버튼을 누르고 기다릴 때마다, 사용자들이 이탈하는 것이 눈에 보였습니다. 100ms(밀리초)가 추가된다고요? 그럼 사용자는 떠납니다. 저는 화려한 마케팅을 하는 모델이 아니라, 실제로 어떤 모델이 빠른지 '알아야' 했습니다.

그래서 저는 모든 인디 해커들이 하는 일을 했습니다. 주말 동안 Global API를 통해 15개의 서로 다른 모델을 벤치마킹했습니다. 두 개의 리전 (Region)에서 테스트를 실행했고, 첫 번째 토큰까지의 시간 (TTFT, Time to First Token)과 초당 토큰 수 (Tokens per second)를 측정했습니다. 그리고 그 모든 것을 여기 가감 없이 공유합니다.

요약 (TL;DR): DeepSeek V4 Flash는 올라운더 괴물입니다 (~60 tok/s, ~180ms TTFT). Step-3.5-Flash는 ~80 tok/s의 속도를 자랑하는 속도광입니다. 만약 예산이 부족하지만 속도가 필요하다면? Qwen3-8B를 추천합니다. 출력 100만 토큰당 $0.01에 70 tok/s를 제공합니다. 농담이 아닙니다.

테스트 실행 방법

저는 인위적인 벤치마크가 아닌 실제 환경의 결과를 원했습니다. 그래서 간단한 프롬프트를 사용했습니다: "재귀 (Recursion)에 대해 200단어로 설명해 주세요." SSE (Server-Sent Events)를 통해 스트리밍했습니다. 각 모델은 10회 실행 후 평균을 냈습니다. 설정값은 다음과 같습니다:

파라미터
테스트 날짜2026년 5월 20일
...

측정에 사용한 Python 코드는 다음과 같습니다. 마음껏 가져다 쓰셔도 됩니다:

import time
import requests
import json
...

매우 간단합니다. Global API 목록에 있는 어떤 모델 이름이든 넣어서 사용할 수 있습니다.

속도 순위 (가장 빠른 것부터 느린 순)

솔직히 말씀드리면, 몇몇 결과에는 충격을 받았습니다. 저는 데이터 덕후라서 표로 정리했지만, 그 후에 자세히 설명하겠습니다.

순위모델TTFT (ms)초당 토큰 수 (Tokens/sec)제공업체 (Provider)$/M 출력 비용
1Step-3.5-Flash12080StepFun$0.15
...

참고: 추론 모델 (Reasoning models, R1, K2.5)은 첫 번째 토큰이 나오기 전 내부적인 사고 시간 (Internal thinking time)을 포함하므로 TTFT가 높게 나타납니다. 하지만 이들은 똑똑합니다.

가격대별 속도

솔직히 말해서, 인디 해커(indie hacker)로서 저는 속도와 비용(cost) 둘 다 중요하게 생각합니다. 취미 프로젝트에 토큰 100만 개당 3달러나 쓸 수는 없으니까요.

초저예산 (< $0.15/M)

모델 (Model)tok/s$/M
Qwen3-8B70$0.01
Step-3.5-Flash80$0.15

Qwen3-8B는 정말 미쳤습니다. 출력 토큰 100만 개당 말 그대로 단 1센트(ONE CENT)에 70 tok/s를 보여줍니다. 요약, 분류, 깊은 추론이 필요 없는 챗봇 같은 단순한 작업에는 따라올 자가 없습니다. Step-3.5-Flash는 80 tok/s로 속도의 제왕이며, 비용은 100만 토큰당 0.15달러에 불과합니다. 낮은 지연 시간(low latency)이 필요하다면 충분히 가치가 있습니다.

저예산 ($0.15–$0.30/M)

모델 (Model)tok/s$/M
DeepSeek V4 Flash60$0.25
...

여기가 바로 최적의 지점(sweet spot)입니다. DeepSeek V4 Flash는 제가 가장 선호하는 모델입니다. 60 tok/s, 180ms의 TTFT(첫 토큰 시간), 그리고 GPT-4o에 필적하는 품질을 보여줍니다. 그것도 100만 토큰당 0.25달러에 말이죠. 제 말은... 그냥 이걸 쓰라는 겁니다.

중급형 ($0.30–$0.80/M)

모델 (Model)tok/s$/M
Doubao-Seed-Lite50$0.40
...

이 모델들은 더 큰 규모의 모델들이라 속도가 떨어집니다. 30 tok/s를 기록한 DeepSeek V4 Pro도 여전히 괜찮지만, 품질을 위해 더 많은 비용을 지불해야 합니다. 솔직히 말해서, 추가적인 추론(reasoning) 능력이 필요한 게 아니라면 V4 Flash를 계속 사용하는 것이 좋습니다.

프리미엄 ($0.80+/M)

모델 (Model)tok/s$/M
MiniMax M2.528$1.15
...

이 모델들은 정확도(correctness)가 속도보다 더 중요할 때 사용합니다. 실수가 큰 비용으로 이어지는 법률 문서 분석이나 코드 생성(code generation) 같은 작업이 그렇습니다. 하지만 20 tok/s라고요? 사용자들은 그 차이를 체감할 것입니다. 꼭 필요한 경우에만 사용하세요.

지리적 지연 시간: 실행 위치가 중요합니다

네트워크 영향을 확인하기 위해 두 지역에서 테스트를 진행했습니다. 서버 위치가 얼마나 중요한지 알면 놀라실 겁니다.

모델 (Model)미국 동부 TTFT아시아 TTFT차이 (Diff)
DeepSeek V4 Flash180ms150ms-30ms
...

Qwen이나 Kimi 같은 아시아 모델들은 아시아에서 16-20% 더 빠릅니다. 당연한 결과죠? 하지만 DeepSeek V4 Flash는 어디서나 거의 동일한 성능을 보여줍니다. 글로벌 배포(global distribution)가 매우 훌륭하다는 뜻입니다. 사용자가 아시아에 있다면 Qwen3 모델이나 DeepSeek를 고려해 보세요.

실질적인 영향: TTFT가 모든 것을 말해줍니다

제가 개인적으로 참고하기 위해 작은 차트를 하나 만들었습니다 (그냥 공유해 드립니다):

TTFT
< 200ms
...

저의 권장 사항은 다음과 같습니다: 대화형 채팅(Interactive chat)의 경우 TTFT를 400ms 미만으로 유지하세요. DeepSeek V4 Flash (180ms), Qwen3-8B (150ms), 또는 Step-3.5-Flash (120ms)를 사용하세요. 사용자들이 고마워할 것입니다.

핵심 요약 (The Bottom Line)

만약 당신이 저와 같은 인디 해커(Indie hacker)라면, 너무 깊게 고민하지 마세요. 대부분의 사용 사례(Use cases)에서는 다음과 같습니다:

  • 속도와 품질이 모두 필요한가요? DeepSeek V4 Flash. (60 tok/s, $0.25/M)
  • 저예산으로 순수 속도가 필요한가요? Qwen3-8B. (70 tok/s, $0.01/M)
  • 가장 빠른 모델로 뽐내고 싶나요? Step-3.5-Flash. (80 tok/s, $0.15/M)
  • 추론 앱(Reasoning app)을 구축 중인가요? 더 느린 TTFT를 감수하세요 – R1 또는 K2.5.

저는 Global API를 통해 모두 테스트했습니다. 이들은 단일 엔드포인트(https://global-apis.com/v1)를 제공하며, 모델 이름만 교체하면 됩니다. 매우 쉽습니다. 만약 이 벤치마크를 직접 실행해보고 싶다면 (사용 사례에 따라 결과가 다를 수 있으므로 직접 해보시는 것을 권장합니다), API 키를 받으세요.

AI 자동 생성 콘텐츠

본 콘텐츠는 Dev.to AI tag의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0