DeepSeek의 500만 무료 토큰을 30일 동안 사용해 보려 했다. R1이 함정이다.

DeepSeek의 500만(5M) 무료 API 토큰은 관대하게 들립니다. 제가 계속 보았던 의견들은 다음과 같았습니다.

"그건 기본적으로 한 달 동안 무료로 AI를 쓰는 거나 다름없어."
"R1은 더 똑똑하기 때문에 당연히 기본값으로 써야 해."
"잔액이 다 떨어질 때까지 그냥 프로토타입을 만들어봐."

이 중 두 가지는 틀렸습니다. 세 번째는 당신이 왜 무슨 일이 일어났는지도 모른 채 빈 토큰 잔액을 마주하며 깨어나게 만드는 방식입니다.

저는 한 DeepSeek 테스트 계정의 실제 14일간의 소모 로그(burn log)를 파헤치는 데 시간을 보냈습니다. 이 수치들은 제가 무료 API 크레딧을 사용하는 방식을 바꾸어 놓았습니다.

요약 (TL;DR)

아니요, 500만(5M) 무료 토큰은 엄청난 크레딧 잔액이 아닙니다. DeepSeek V4 요율 기준으로, 이는 대략 $3.40 상당의 유료 사용량입니다.
이를 낭비하는 가장 빠른 방법은 추론(reasoning)이 필요 없는 작업에 R1을 기본값으로 사용하는 것입니다. 저희의 테스트 프롬프트에서 R1은 V4보다 3배에서 6.7배 더 많은 토큰을 소모했습니다.
max_tokens 설정을 누락하는 것은 조용한 살인자입니다. 한 분류(classification) 작업은 20토큰 제한을 추가한 후 380개의 출력 토큰에서 8개로 급감했습니다.
모든 프롬프트에 전체 문서 RAG(Retrieval-Augmented Generation)를 사용하는 것은 무료 티어를 제공업체에게 기부하는 방식입니다.
절제력이 있다면 500만(5M) 토큰으로 거의 한 달 동안 실제 1인 개발자 프로토타입을 지원할 수 있습니다. 하지만 부주의하다면 긴 주말 사이에 사라진 것처럼 느껴질 수 있습니다.

실제로 일어난 일

DeepSeek는 신규 계정에 5,000,000개의 무료 토큰을 제공합니다. 저희가 가입 절차 안내(signup walkthrough)에서 추적한 계정 설정 흐름에 따르면 신용카드는 필요하지 않으며, 계정 잔액은 DeepSeek 플랫폼 대시보드(DeepSeek platform dashboard)에서 확인할 수 있습니다.

함정은 이것입니다: 토큰 증정은 한 달간의 사용량과 동일한 개념이 아닙니다.

DeepSeek가 공개한 V4 가격인 입력 토큰 100만 개당 $0.27 및 출력 토큰 100만 개당 $1.10 (DeepSeek 가격 문서(DeepSeek pricing docs)) 기준으로, 균형 잡힌 500만(5M) 토큰 허용량의 가치는 다음과 같습니다:

구성	입력 비용	출력 비용	총 가치
2.5M 입력 + 2.5M 출력	$0.675	$2.75	$3.425

이 수치는 매우 작으면서도 동시에 유용합니다.

매우 작습니다. 왜냐하면 이를 진지한 클라우드 크레딧 (Cloud Credit)처럼 취급해서는 안 되기 때문입니다. 하지만 유용하기도 합니다. DeepSeek는 충분히 저렴해서, 호출 (Call)을 잘 제어한다면 3.40달러로도 의미 있는 프로토타입 (Prototype)을 만들 수 있기 때문입니다.

테스트 계정은 문서 Q&A 봇, 기본적인 코딩 지원, 분류 (Classification), 추출 (Extraction), 그리고 몇 가지 RAG 실험에 DeepSeek를 사용했습니다. 모든 호출의 prompt_tokens와 completion_tokens는 SQLite에 기록되었습니다.

중요했던 소모 곡선 (Burn curve)은 다음과 같습니다:

기간	주요 활동	사용된 토큰	누적 소모
1-2일차	래퍼 코드 (Wrapper code), hello world	18K	0.4%
...

창피한 부분은 두 번의 큰 급증 (Spike)이 피할 수 있는 것이었다는 점입니다.

3일차는 RAG 설계 실수였습니다.

10일차는 누락된 파라미터 (Parameter) 때문이었습니다.

이것이 AI API 비용의 전부입니다. 단 한 번의 파멸적인 청구서가 아니라, 제품 출시 (Shipping)에 집중하는 동안 발생하는 작은 실수들이 복리로 쌓이는 것입니다.

내가 기본적으로 R1 사용을 중단하게 만든 숫자

R1은 재미있는 모델입니다. 추론 (Reasoning)을 합니다. 더 많이 생각합니다. 진지한 선택처럼 느껴집니다.

하지만 많은 API 작업에서 "진지함"은 "이유 없는 비용 발생"을 의미합니다.

동일한 작업, 동일한 프롬프트 (Prompt) 계열:

작업	DeepSeek V4 토큰	DeepSeek R1 토큰	배수 (Multiplier)
짧은 분류	~400	~1,200	3x
...

이제 나의 규칙은 간단합니다:

기본적으로 V4를 사용합니다. 수학, 다단계 논리 (Multi-step logic), 또는 추론 과정 (Reasoning trace)이 비용을 지불할 가치가 있는 작업에 대해서만 R1으로 격상합니다.

이 고통을 월간 청구서로 번역하면 다음과 같습니다:

시나리오	모델 선택	호출당 약 토큰 수	일일 500회 호출	월간 소모
V4 분류	올바른 기본값	400	200K/일	6M/월
...

무료 티어 (Free-tier) 규모에서는 R1 실수가 지원금을 더 빨리 소진시킵니다.

유료 규모에서는 동일한 실수가 반복적인 비용 항목이 됩니다.

`max_tokens` 버그는 보기보다 더 비쌉니다

이것은 로그에서 발견한 가장 웃기면서도 짜증 나는 발견이었습니다.

작업은 분류였습니다. 예상 출력: 레이블 (Label) 하나.

모델은 문단을 반환했습니다.

이전에는:

response = client.chat.completions.create(
    model="deepseek-chat",
    messages=[
...

이후:

response = client.chat.completions.create(
    model="deepseek-chat",
    messages=[
...

평균 출력량이 380 토큰에서 8 토큰으로 감소했습니다.

단 하나의 파라미터와 한 문장만으로 **47배의 출력 감소 (output reduction)**를 달성한 것입니다.

이를 번역하면 다음과 같습니다:

작업 부하 (Workload)	이전	이후	의미
10K 분류 작업	3.8M 출력 토큰	80K 출력 토큰	무료 제공량의 거의 전부를 절약
...

이것이 바로 제가 출력 제한 (output caps)을 무시하는 "저렴한 모델"에 대한 논의를 신뢰하지 않는 이유입니다.

제어되지 않는 출력을 내뱉는 저렴한 모델은 결코 저렴하지 않습니다.

RAG의 실수: 전체 컨텍스트는 검색이 아니다

3일 차에는 프로토타입이 모든 호출에 2,400 토큰 분량의 참조 문서를 붙여넣는 바람에 712K 토큰을 소모했습니다.

그것은 RAG (Retrieval-Augmented Generation)가 아닙니다. 그것은 컨텍스트 창 (context window)을 이용한 패닉 상태일 뿐입니다.

해결책은 지루할 정도로 간단했습니다: top-k 검색 (top-k retrieval).

접근 방식	평균 입력 토큰	품질 결과
모든 프롬프트에 전체 문서 포함	2,400	기준점 (Baseline)
상위 3개 청크 (각 ~120 토큰)	~400	약간 개선됨

모델이 관련 없는 컨텍스트를 읽는 것을 중단했기 때문에 품질이 향상되었습니다.

사람들이 놓치는 부분이 바로 이것입니다: 컨텍스트 축소 (context reduction)는 단순한 비용 최적화가 아닙니다. 그것은 품질 최적화가 될 수 있습니다.

한 달 치 계산을 해봅시다:

RAG 스타일	일일 호출 횟수	호출당 입력 토큰	월간 입력 토큰
전체 문서 프롬프트	200	3,000	18M
Top-k 검색	200	800	4.8M

동일한 제품, 동일한 사용자 경험. 월간 입력 토큰이 13.2M 감소합니다.

무료 제공량을 사용하는 상황에서, 이것은 프로토타입을 완성하느냐, 아니면 마지막 일주일 동안 할당량 오류 (quota errors)를 디버깅하며 시간을 허비하느냐의 차이입니다.

5M 토큰 의사결정 트리

만약 제가 오늘 새로운 DeepSeek 잔액으로 시작한다면, 다음과 같은 라우팅 함수 (routing function)를 사용할 것입니다:

def deepseek_free_tier_plan(workload):
    if workload in ["classification", "extraction", "short_qa", "rewrite"]:
        return {
...

저는 코드로 작성하는 것을 선호하는데, 그렇게 하면 실제 의사결정 과정이 명확히 드러나기 때문입니다.

질문은 "어떤 모델이 가장 좋은가?"가 아닙니다.

질문은 "이 작업에 어떤 모델이 충분한가?"여야 합니다.

만약 제가 오늘 다시 시작한다면

만약 제가 1인 개발자라면:

500만(5M) 토큰을 확보한 뒤, 첫 한 시간은 사용량 로거 (usage logger)를 만드는 데 쓰겠습니다.
기본적으로 모든 작업에 V4를 사용하겠습니다.
실제 앱 코드를 작성하기 전에 모든 호출에 max_tokens를 설정하겠습니다.
시스템 프롬프트 (system prompts)를 200 토큰 미만으로 유지하겠습니다.
V4가 실패한 이유를 기록한 후에야 R1으로 전환하겠습니다.

만약 제가 RAG 프로토타입을 구축한다면:

문서 전체를 프롬프트에 넣는 행위를 금지하겠습니다.
상위 3개 검색 결과 (top-3 retrieval)로 시작하겠습니다.
입력 토큰 (input tokens)을 출력 토큰 (output tokens)과 별도로 기록하겠습니다.
컨텍스트 (context)를 추가한 후뿐만 아니라, 제거한 후에도 답변 품질을 테스트하겠습니다.
무료 혜택이 30일에 가깝게 유지되기를 원한다면 하루 호출 횟수를 100~150회로 예산을 잡겠습니다.

만약 제가 소규모 팀 내에서 이를 운영한다면:

500만 토큰 혜택을 인프라가 아닌 온보딩 (onboarding) 과정으로 취급하겠습니다.
각 워크플로우 (workflow)에 일일 토큰 상한선을 두겠습니다.
잔액이 0이 되기 전에 폴백 (fallback)을 설정하겠습니다.
DeepSeek V4를 OpenAI/Claude와 비교할 때, 느낌 (vibes)이 아니라 성공적인 작업당 비용을 기준으로 비교하겠습니다.

더 큰 그림

흥미로운 점은 DeepSeek가 500만 토큰을 무료로 제공한다는 사실이 아닙니다.

흥미로운 점은 이 허용량이 비용을 지불하기 전에 AI API의 경제학을 배울 수 있을 만큼 충분히 크다는 것입니다.

여러분은 다음과 같은 사실을 빠르게 배우게 됩니다:

추론 모델 (Reasoning models)은 기본 모델이 아닙니다.
"저렴함"이 "비쌈"으로 변하는 지점은 바로 출력 토큰 (output tokens)입니다.
검색 (retrieval) 없는 RAG는 그저 컨텍스트 스터핑 (context stuffing)일 뿐입니다.
무료 크레딧은 나중에 유료 청구서로 나타날 똑같은 실수들을 숨겨줍니다.

DeepSeek는 적은 토큰 잔액으로도 여전히 실제 실험을 지원할 수 있는 몇 안 되는 제공업체 중 하나입니다. 하지만 무료 티어에서의 절제력이 중요한 이유는 역설적으로 유료 티어가 저렴하기 때문입니다. 만약 여러분의 워크플로우가 3.40달러에서 낭비적이라면, 34달러, 340달러, 또는 3,400달러에서도 여전히 낭비적일 것입니다.

만약 여러분이 하나의 OpenAI 호환 엔드포인트(OpenAI-compatible endpoint)를 통해 OpenAI, Anthropic, Google, DeepSeek 모델 사이를 전환하며 사용하고 싶다면, TokenMix가 대략 그런 역할을 수행합니다. 공개 사항: 저는 연구 부문에서 근무하고 있습니다. 이번 DeepSeek 테스트에 대한 데이터 인용이 포함된 전체 분석 내용은 원문 기사에서 확인할 수 있습니다.

결론 (Bottom line)

DeepSeek의 500만(5M) 무료 토큰은 진지한 프로토타입(prototype) 제작에는 충분하지만, 부주의한 기본 설정(defaults)을 사용하기에는 충분하지 않습니다.

저의 기본 설정은 이제 V4, 출력 제한(capped outputs), 짧은 시스템 프롬프트(system prompts), 그리고 top-k 검색(top-k retrieval)입니다. R1은 작업별로 그 가치를 인정받아 사용됩니다.

만약 여러분에게 500만(5M) 무료 토큰과 30일의 시간이 주어진다면, 가장 먼저 무엇에 사용하시겠습니까: 코딩 어시스턴트(coding assistant), 문서 봇(docs bot), RAG 프로토타입(RAG prototype), 아니면 다른 무엇인가요?

DeepSeek의 500만 무료 토큰을 30일 동안 사용해 보려 했다. R1이 함정이다.

요약

핵심 포인트

요약 (TL;DR)

실제로 일어난 일

내가 기본적으로 R1 사용을 중단하게 만든 숫자

`max_tokens` 버그는 보기보다 더 비쌉니다

RAG의 실수: 전체 컨텍스트는 검색이 아니다

5M 토큰 의사결정 트리

만약 제가 오늘 다시 시작한다면

더 큰 그림

결론 (Bottom line)

댓글

DeepSeek의 500만 무료 토큰을 30일 동안 사용해 보려 했다. R1이 함정이다.

요약

핵심 포인트

요약 (TL;DR)

실제로 일어난 일

내가 기본적으로 R1 사용을 중단하게 만든 숫자

max_tokens 버그는 보기보다 더 비쌉니다

RAG의 실수: 전체 컨텍스트는 검색이 아니다

5M 토큰 의사결정 트리

만약 제가 오늘 다시 시작한다면

더 큰 그림

결론 (Bottom line)

댓글

`max_tokens` 버그는 보기보다 더 비쌉니다