DeepSeek API 기초부터 배우기: 아무도 말해주지 않는 사실들

이것 좀 보세요: DeepSeek API 기초부터 배우기: 아무도 말해주지 않는 사실들

저는 약 6개월 전에 코딩 부트캠프 (coding bootcamp)를 졸업했는데, 새로운 API (Application Programming Interface)를 다룰 때마다 여전히 긴장되곤 합니다. 빈 터미널 (terminal)을 응시하고 있으면 모든 것이 폭발해 버릴 것만 같은 기분이 들 때가 있습니다. 그래서 사이드 프로젝트를 위해 DeepSeek API를 파악하려고 앉았을 때, 저는 두통을 예상했습니다. 하지만 제가 발견한 것은 AI (인공지능)를 활용한 빌딩 (building)에 대한 제 생각을 완전히 바꿔 놓았습니다.

제가 배운 모든 것을 안내해 드리겠습니다. 솔직히 말해서, 제가 시작하기 전에 누군가 이 내용의 절반이라도 말해줬더라면 좋았을 것 같기 때문입니다.

제가 어떻게 여기까지 오게 되었나

한 밋업 (meetup)에서 더 시니어 개발자 (senior developer) 한 분이 Global API와 그것이 어떻게 184개 이상의 서로 다른 AI 모델 (AI models)로 라우팅 (routing)되는지에 대해 언급했습니다. 저는 그런 것이 존재하는지 전혀 몰랐습니다. 저는 그냥 OpenAI나 Anthropic을 선택하면 끝나는 줄로만 알았습니다. 솔직히 정말 놀라웠습니다.

커피를 뿜게 만든 가격 비교

Global API에서 제가 처음 찾아본 표는 DeepSeek와 몇몇 다른 모델들의 가격을 나열한 것이었습니다. 저는 충격을 받았습니다. 이 수치들을 보세요:

DeepSeek V4 Flash: 입력 (input) $0.27, 출력 (output) $1.10, 128K 컨텍스트 (context)
DeepSeek V4 Pro: 입력 (input) $0.55, 출력 (output) $2.20, 200K 컨텍스트 (context)
Qwen3-32B: 입력 (input) $0.30, 출력 (output) $1.20, 32K 컨텍스트 (context)
GLM-4 Plus: 입력 (input) $0.20, 출력 (output) $0.80, 128K 컨텍스트 (context)
GPT-4o: 입력 (input) $2.50, 출력 (output) $10.00, 128K 컨텍스트 (context)

제가 수학 천재는 아니지만, DeepSeek V4 Flash가 입력 토큰 (input tokens) 기준으로 GPT-4o보다 대략 10배 저렴하다는 것은 누구나 알 수 있습니다. 10배라니요. 그리고 컨텍스트 윈도우 (context window)는 동일합니다. 출력 (output)은 약 9배 더 저렴합니다. 저는 커피를 내려놓고 잠시 동안 화면을 멍하니 바라봐야 했습니다.

나의 첫 번째 코드 시도 (그리고 그것이 실제로 작동한 이유)

가장 저를 놀라게 했던 점은 이것입니다. Global API를 통해 DeepSeek를 호출하는 코드는 기본적으로 OpenAI를 호출하는 것과 동일합니다. 그들은 OpenAI 호환 SDK (OpenAI-compatible SDK)를 사용하기 때문에, 저는 새로운 라이브러리 (library)를 배울 필요가 없었습니다. 저는 그저 베이스 URL (base URL)만 변경하면 되었습니다.

제 첫 번째 작동 버전이 어떤 모습이었는지 보여드리겠습니다:

import openai
import os

...

그게 전부입니다. 이게 끝이에요. 저는 말 그대로 OpenAI 문서의 패턴을 그대로 복사한 다음, Global API의 베이스 URL (base URL)로 교체하고 DeepSeek 모델 이름 중 하나를 사용했습니다. 제 인생이 늘 그렇듯 첫 시도에 에러가 날 것이라고 예상했지만, 실제로 작동했습니다. 너무 안도한 나머지 아파트에서 소리 내어 웃었을지도 모릅니다.

직접 시도해보고 싶다면, Global API에서 API 키를 가져와 환경 변수 (environment variable)로 설정하기만 하면 됩니다. 사소한 오타를 구글링하는 데 쓴 시간을 포함하더라도, 전체 설정에 10분도 채 걸리지 않았습니다.

예상치 못하게 배우게 된 것들

기초적인 부분이 작동하는 것을 확인한 후, 저는 모범 사례 (best practices)를 파헤치기 시작했습니다. 저렴한 옵션이라면 지연 시간 (latency)이 끔찍하거나 품질이 형편없는 것과 같은 숨겨진 함정이 있을 것이라고 생각했습니다. 제가 무엇을 발견하게 될지는 전혀 몰랐습니다.

지연 시간 (Latency) 및 처리량 (Throughput)

제가 가장 먼저 살펴본 수치는 지연 시간 (latency)이었습니다. DeepSeek의 평균 응답 시간은 약 1.2초였습니다. 저렴하면 느릴 것이라고 가정했었기에 저는 충격을 받았습니다. 알고 보니 처리량 (throughput)은 초당 약 320 토큰 (tokens) 정도로, 진심으로 빨랐습니다. 제가 만든 요약기 (summarizer)의 경우, 사용자는 1초가 조금 넘는 시점에 화면에서 무언가를 보게 되고, 그 후 나머지가 스트리밍 (streaming)됩니다. 인간에게는 즉각적인 것처럼 느껴집니다.

품질 (Quality)

다음으로 벤치마크 점수 (benchmark scores)를 살펴보았습니다. 테스트 전반에 걸친 평균 벤치마크 점수는 84.6%로 나왔습니다. 무엇이 "좋은" 점수인지 몰랐기에 조사를 좀 해보았습니다. 듣자하니 대부분의 사용 사례에서 80% 이상이면 프로덕션 준비 (production-ready)가 된 것으로 간주된다고 합니다. 즉, DeepSeek는 단순히 저렴하기만 한 것이 아니라 실제로 탄탄합니다. 요약 작업의 경우, 제가 보기에는 결과물이 훌륭했습니다. 친구에게 DeepSeek와 GPT-4o의 요약본을 비교해달라고 부탁했는데, 그는 대부분의 경우 차이를 느끼지 못했습니다.

캐싱 (Caching)은 비밀 병기였습니다

정말 놀라웠던 부분은 바로 이 대목입니다. 권장 사항은 공격적으로 캐싱 (Caching)을 사용하는 것이었는데, 캐시 히트율 (Cache hit rate) 40%만 달성해도 비용을 엄청나게 절약할 수 있다고 합니다. 캐싱이 이토록 큰 영향을 미칠 줄은 전혀 몰랐습니다.

스트리밍 (Streaming)이 전체적인 느낌을 바꾸었습니다

저는 이전에 스트리밍 (Streaming) 응답을 다뤄본 적이 없었습니다. 처음 작성한 코드는 전체 응답이 모두 돌아올 때까지 아무것도 출력하지 않고 기다리는 방식이었습니다. 짧은 답변에는 괜찮지만, 긴 요약의 경우 아무 일도 일어나지 않는 어색한 정지 상태가 발생합니다. 사용자는 서비스가 고장 났다고 생각하게 됩니다.

스트리밍 모드로 전환하는 것은 생각보다 쉬웠습니다. 요청에 stream=True를 추가하고 청크 (Chunks)를 반복문으로 돌리기만 하면 됩니다. 사용자는 단어가 거의 즉시 나타나는 것을 보기 시작하며, 체감 지연 시간 (Perceived latency)은 사실상 제로에 가깝게 떨어집니다. 문서의 권장 사항에 따르면 스트리밍은 사용자 경험 (UX)에 더 좋고 체감 지연 시간을 낮춰준다고 했는데, 빈말이 아니었습니다. 모델이 실시간으로 타이핑을 하고 있는 것처럼 진정으로 느껴졌습니다.

조금 더 정교한 예시

기초를 익힌 후, 스트리밍 (Streaming), 에러 핸들링 (Error handling), 그리고 모델 전환 기능이 포함된 더 완성도 높은 버전을 구축했습니다. 대략적인 모습은 다음과 같습니다:

import openai
import os
import time
...

저는 Flash 버전과 Pro 버전 사이를 전환할 수 있는 옵션을 추가했습니다. 대부분의 요약 작업에는 Flash가 훌륭하게 작동합니다. 하지만 추가적인 추론 (Reasoning)이 필요한 까다로운 콘텐츠의 경우 Pro로 올립니다. 가격 차이는 대략 두 배 정도지만, 출력 토큰 100만 개당 10.00달러인 GPT-4o에 비하면 여전히 훨씬 저렴합니다.

제가 테스트해 본 다른 모델들

이왕 하는 김에, Global API에 있는 다른 옵션들도 성능이 어떤지 확인하기 위해 몇 가지 테스트해 보았습니다. 매우 비공식적인 제 의견은 다음과 같습니다:

Qwen3-32B는 입력 $0.30, 출력 $1.20로 안정적이었지만, 32K 컨텍스트 윈도우 (Context window)가 제한적이라는 느낌을 받았습니다. 긴 기사를 요약할 때는 그보다 더 많은 여유 공간이 필요합니다. 몇몇 입력값이 잘리는(Truncated) 현상이 있었는데, 문서를 더 주의 깊게 읽기 전까지는 왜 그런지 알 수 없었습니다.

GLM-4 Plus는 입력 $0.20, 출력 $0.80으로 이번 그룹 중 가장 저렴했습니다. 몇 가지 간단한 쿼리에 테스트해 보았는데 성능이 괜찮았습니다. 문서에는 간단한 쿼리를 위해 비용을 50% 절감할 수 있는 "GA-Economy" 옵션이 언급되어 있었습니다. 아직 완전히 연결(Wired up)하지는 않았지만, 계획 중입니다. 키워드 추출이나 문장 재작성(Rewriting)과 같은 단순한 작업의 경우, 절반 가격으로 이용할 수 있다는 점은 매우 매력적입니다.

GPT-4o는 입력 $2.50, 출력 $10.00로 제가 처음 시작했던 모델입니다. 모두가 알고 있는 모델이며 품질은 진정으로 뛰어납니다. 하지만 마진이 적은 사이드 프로젝트(Side project)에서는 너무 비쌉니다. 저는 정말 최고의 성능이 필요한 경우를 위해 이 모델을 비상용(In my back pocket)으로 남겨둡니다.

첫날에 알았더라면 좋았을 것들

만약 제가 과거로 돌아가 부트캠프 시절의 저에게 몇 가지를 말해줄 수 있다면, 다음과 같이 말하겠습니다.

인기 있는 옵션이 유일한 옵션이라고 가정하지 마세요. 저는 OpenAI가 기본값(Default)이라고 생각하고 시작했지만, 이제는 더 이상 사실이 아닙니다. Global API를 통해 184개의 모델에 접근할 수 있었고, 그 안에는 정말 보석 같은 모델들이 있습니다.
저렴한 옵션이 정답일 수 있습니다. 입력 $0.27, 출력 $1.10인 DeepSeek V4 Flash는 84.6%의 벤치마크 성능, 1.2초의 지연 시간(Latency), 그리고 초당 320개의 토큰(Tokens per second)을 보여주었습니다. 제가 만들고자 하는 대부분의 기능에는 이 정도면 충분합니다.
캐싱(Caching)은 선택이 아닌 필수입니다. 40%의 히트율(Hit rate)은 실제 비용 절감으로 이어졌습니다. 간단한 인메모리 캐시(In-memory cache)라도 구축할 가치가 있습니다.
스트리밍(Streaming)을 사용하면 모든 것이 더 빠르게 느껴집니다. 코드상으로는 작은 변화지만 사용자 경험(User experience) 측면에서는 엄청난 변화를 가져옵니다.
항상 폴백 플랜(Fallback plan)을 마련하세요. 권장 사항은 속도 제한(Rate limits) 발생 시 우아한 성능 저하(Graceful degradation)를 구현하는 것이었습니다. 저는 첫 번째 호출이 실패할 경우 다른 모델로 한 번 더 재시도하는 try-except 블록을 추가했습니다. 아직까지는 필요하지 않았지만, 갖춰두면 좋습니다.

솔직한 수치들

모든 비용을 합산해 본 결과, Global API를 통해 DeepSeek를 사용하는 것은 제가 처음에 고려했던 "일반적인 솔루션"(제가 읽기로는 유명한 대형 제공업체들)과 비교했을 때 40~65%의 비용 절감 효과를 주었습니다. 이는 문서의 주장과 일치했으며, 매우 안심이 되는 부분이었습니다. 사이드 프로젝트를 운영하는 부트캠프 졸업생에게 이러한 절감액은 서비스를 계속 유지하느냐, 아니면 종료하느냐를 결정짓는 차이입니다.

비용 분석 측면도 언급하고 싶습니다. 문서의 원래 프레임워크는 "운영 비용 분석 (production cost analysis)"과 "대규모로 언어 워크로드 (language workloads)를 실행하는 팀"에 대해 이야기했습니다. 저는 그런 팀 중 하나가 아닙니다. 저는 사이드 프로젝트를 하는 개인일 뿐입니다. 하지만 동일한 원칙이 적용됩니다. 소규모 운영에서도 40~65%를 아낄 수 있다면, 실제 팀은 얼마나 더 큰 효과를 볼 수 있을지 상상해 보십시오.

마무리하며

저는 API가 위협적이고 저렴한 옵션들은 어딘가 수상할 것이라는 생각을 가지고 이 일을 시작했습니다. 하지만 이제 저는 한 달에 몇 달러 정도의 비용만 들고, 예상보다 빠르게 작동하며, 제가 실제로 이해할 수 있는 코드를 사용하는 작동 가능한 요약기 (summarizer)를 갖게 되었습니다. 스트리밍 응답 (streaming responses) 때문에 혼란스러워했던 시간을 포함하더라도, 이 모든 것을 구축하는 데 주말이 채 걸리지 않았습니다.

만약 여러분이 비용이나 복잡성 때문에 AI를 활용한 개발을 망설여온 부트캠프 졸업생(혹은 솔직히 말해 그 누구라도)이라면, Global API에서 제공하는 DeepSeek API를 시도해 보라고 말씀드리고 싶습니다. 기본 URL (Base URL)은 https://global-apis.com/v1이며, SDK는 여러분이 이미 알고 있을 법한 표준 OpenAI SDK를 사용합니다. 또한 가격은 사용량 대시보드를 확인할 때 움찔하게 만들 정도로 비싸지 않을 것입니다.

184개의 모든 모델을 직접 확인하고 싶다면 Global API를 살펴보셔도 좋습니다. 또한 테스트를 시작할 수 있도록 100개의 무료 크레딧을 제공하는데, 저도 이를 통해 단 한 푼도 쓰지 않고 첫 번째 실험 단계를 마칠 수 있었습니다. 압박을 느끼실 필요는 없습니다. 그저 여러분의 유스케이스 (use case)에 무엇이 맞는지 탐색해 볼 수 있는 확실한 방법일 뿐입니다.

즐거운 개발 되시길 바라며, 여러분의 API 호출이 항상 200 (OK)을 반환하기를 기원합니다.