Doubao Seed 2.0 API 가이드: ByteDance의 가성비 LLM 가격 책정, 설정 및 벤치마크 (2026)

Doubao Seed 2.0이란 무엇인가요? Doubao Seed 2.0은 2026년 2월 14일에 출시된 ByteDance의 프런티어급 LLM (Large Language Model) 제품군이며, Doubao 소비자용 앱(MAU 기준 중국 최대 AI 챗봇)의 엔진입니다. "Seed"라는 명칭은 ByteDance의 내부 연구소(internal research lab)를 의미합니다. 2.0 제품군의 모든 변체(variant)는 동일한 베이스 체크포인트(base checkpoint)로부터 사후 학습(post-trained)된 후 전문화되었습니다. 네 가지 변체가 있습니다:

Seed 2.0 Pro — 플래그십 추론(reasoning) + 멀티모달(multimodal), Claude Opus / GPT-5.2 / Gemini 3 Pro와 경쟁
Seed 2.0 Code — Pro와 동일한 가격, 소프트웨어 엔지니어링 작업을 위해 사후 학습됨
Seed 2.0 Lite — 균형 잡힌 범용 모델, 미국 중급 모델들과 경쟁하면서도 훨씬 저렴한 비용
Seed 2.0 Mini — 가성비 중심의 작업용 모델, 고동시성 루프(high-concurrency loops, 분류, 추출, 경량 에이전트)를 위해 설계됨

네 가지 모델 모두 최대 32K 출력 토큰을 포함하는 256K 토큰 컨텍스트 윈도우(context window)를 공유하며, 모두 비전 입력(vision input), 함수 호출(function calling), 프롬프트 캐싱(prompt caching), 구조화된 출력(structured outputs)을 지원합니다. Pro와 Code는 추가적으로 확장된 추론("thinking" 모드)을 지원하며, Pro는 비디오 입력도 지원합니다.

Doubao Seed 2.0 가격 책정 — 실제로 지불하게 될 수치
해외 개발자에게는 두 가지 가격 책정 경로가 중요합니다.

Volcengine ARK 직접 이용 (중국): 중국 전화번호, 중국 본토 신분증 인증, 그리고 Alipay 또는 WeChat Pay를 통한 위안화(CNY) 충전이 필요합니다. 이러한 장애물을 통과할 수 있다면 가장 저렴합니다.
ofox.ai OpenAI 호환 게이트웨이: USD 결제, 이메일 가입, 중국 신분증 불필요. 직접적인 ARK 이용보다 약간의 게이트웨이 마진이 붙지만, 동일한 키로 Claude, GPT, Gemini, DeepSeek, Qwen을 함께 사용할 수 있습니다.

ofox를 통해 각 티어(tier)가 실제로 지불하는 비용은 다음과 같습니다 (2026-05-20 기준 ofox.ai/llms-full.txt를 통해 검증됨):

변체 (Variant)	입력 ($/MTok)	출력 ($/MTok)	컨텍스트 (Context)	최적 용도 (Best for)
Seed 2.0 Mini	$0.06	$0.56	256K	대량 분류, 추출, 가벼운 라우팅 (light routing)
Seed 2.0 Lite	$0.13	$0.76	256K	범용 채팅, RAG, 콘텐츠 생성
Seed 2.0 Code	$0.67	$3.36	256K	코드 생성 (Codegen), 리팩토링, 파일 편집을 포함한 에이전트 루프 (agent loops)
Seed 2.0 Pro	$0.67	$3.36	256K	고난도 추론 (hard reasoning), 수학, 비전, 다단계 계획 (multi-step planning)

참고로, GPT-5.2는 MTok당 $1.75/$14.00로 기재되어 있으며, Claude Opus 4.6은 $5.00/$25.00, Gemini 3.1 Pro는 $2.00/$12.00입니다. Doubao Seed 2.0 Pro의 $0.67/$3.36은 완전히 다른 가격대에 위치하며, Mini의 $0.06/$0.56은 또 다른 제3의 가격대에 있습니다. Pro와 Code의 가격이 동일한 것(토큰당 가격 동일)은 의도된 것입니다. ByteDance는 Code를 코딩에 특화된 헤드(head)를 가진 Pro 모델로 취급합니다. 어느 쪽이든 플래그십(flagship) 요금을 지불하게 되므로, 필요한 사후 학습 (post-training) 유형에 따라 선택하십시오.

벤치마크 — 각 변체가 실제로 제공하는 성능
ByteDance의 출시 자료 및 제3자 평가(apiyi.com, datalearner.com, evolink.ai)를 통한 공개 벤치마크 점수이며, 2026-05-20에 교차 검증되었습니다:

벤치마크 (Benchmark)	Pro	Lite	Code	Mini
AIME 2025 (수학)	98.3	93.0	—	87.0
GPQA Diamond (과학)	88.9	—	—	—
MMLU-Pro (지식)	87.0	87.7	—	—
LiveCodeBench v6	—	—	87.8	—
SWE-Bench Verified	76.5	73.5	76.5	—
Codeforces rating	3020	—	—	—
VideoMME	89.5	—	—	—

이 점수들에 대한 몇 가지 참고 사항:
Lite의 특이점은 실제 현상입니다. Lite는 MMLU-Pro에서 Pro보다 약간 더 높은 점수를 기록했습니다 (87.7 대 87.0). 이는 단순한 노이즈가 아닙니다. Lite는 지식 집약적인 증류 (distill) 모델로 사후 학습된 반면, Pro는 고난도 추론 (hard reasoning)에 최적화되어 있기 때문입니다. 만약 작업 부하가 "문서 요약"이나 "사실적 질문에 답변"하는 것이라면, Lite가 진정으로 올바른 선택입니다. 추론 체인 (chains of inference)이 중요한 경우에는 Pro가 올바른 선택입니다.

Code는 SWE-Bench Verified에서 Pro와 동일한 점수(76.5)를 기록했습니다. 이는 Claude Sonnet 4.6의 성능에 근접한 수준이며, 동일한 벤치마크에서 GPT-5.4-mini를 앞서는 수치입니다. $0.67/$3.36의 가격으로, Code는 "실제 코드베이스를 편집할 수 있는" 티어 중에서 가장 저렴한 모델입니다.

Pro의 Codeforces 점수 3020점은 진정한 프런티어 (Frontier) 급입니다. 비교를 위해, 동일한 평가에서 GPT-5.5는 약 3050점, Claude Opus 4.7은 약 2980점을 기록했습니다. Mini의 AIME 점수 87.0점은 놀라운 결과입니다. 이는 GPT-4o보다 높은 수학 점수이면서 가격은 훨씬 저렴합니다. 타이트한 루프 (Tight loop) 내에서 3.5 클래스보다 더 똑똑한 모델을 원하는 작업의 경우, Mini는 따라올 자가 없습니다. 벤치마크가 알려주지 않는 사실: Doubao 모델들은 여전히 중국어 품질에 과도하게 치중되어 있으며, Pro의 영어 긴 문맥 회상 (Long-context recall) 능력은 약 150K 토큰 이후부터 Gemini 3.1 Pro보다 눈에 띄게 약합니다. 깊은 문맥이 필요한 영어 전용 에이전트 (Agent) 워크로드의 경우, 여전히 Gemini가 승리합니다. 혼용 언어 또는 중국어 중심의 작업의 경우, Doubao Seed 2.0 Pro는 이 가격대에서 가장 강력한 옵션입니다.

중국 외부에서 Doubao Seed 2.0에 접속하는 방법: 세 가지 실제 옵션이 있습니다.

Volcengine ARK 직접 이용. 엔드포인트 (Endpoint): https://ark.cn-beijing.volces.com/api/v3/chat/completions . 가장 저렴한 가격. 충전을 위해 중국 전화번호 + 신분증 + Alipay/WeChat Pay가 필요합니다. 중국 기반이 아닌 대부분의 팀에게는 실행 불가능한 방식입니다.
BytePlus (ByteDance의 해외 부문). USD 결제, 중국 전화번호 불필요. 하지만 가격이 중국 본토 ARK 요금의 약 1.7배이며, 온보딩 (Onboarding) 과정에서 여전히 사업자 등록을 요구합니다. 기업에게는 실행 가능하지만, 개인 개발자에게는 고통스러운 방식입니다.
OpenAI 호환 게이트웨이 (ofox.ai). 이메일 가입, 해외 카드로 충전 가능, Doubao + Claude + GPT + Gemini + DeepSeek + Qwen을 하나의 API 키로 사용. 가격은 직접적인 ARK와 BytePlus의 중간 수준입니다. 이것이 대부분의 해외 개발자들이 택하는 경로이며, 아래의 설정 섹션에서 사용하는 방식입니다. 게이트웨이 경로는 직접적인 경로로는 얻을 수 없는 이점도 제공합니다: 바로 코드 한 줄 변경만으로 모델을 전환할 수 있다는 점입니다. 특정 워크로드에서 Mini로 부족해지면, 나머지 스택을 건드리지 않고도 volcengine/doubao-seed-2.0-mini를 volcengine/doubao-seed-2.0-pro (또는 anthropic/claude-sonnet-4-6 등)로 교체할 수 있습니다.

설정 — Python으로 첫 Doubao Seed 2.0 호출하기
ofox.ai API는 OpenAI와 완전히 호환됩니다.

만약 openai Python SDK를 사용해 본 적이 있다면, 이미 그 형태를 알고 계실 것입니다:

from openai import OpenAI

client = OpenAI (
    api_key = " sk-ofox-... " , # ofox.ai/dashboard 에서 확인 가능
    base_url = " https://api.ofox.ai/v1 " ,
)

resp = client . chat . completions . create (
    model = " volcengine/doubao-seed-2.0-lite " ,
    messages = [{ " role " : " user " , " content " : " Explain MoE routing in two sentences. " }],
)

print ( resp . choices [ 0 ]. message . content )

이것으로 끝입니다. OpenAI를 직접 호출하는 방식에서 세 가지 변경 사항이 있습니다: api_key, base_url, 그리고 model slug입니다. 그 외의 모든 기능 — 스트리밍 (streaming), 함수 호출 (function calling), 구조화된 출력 (structured outputs), 도구 사용 (tool use) — 은 동일한 SDK 메서드를 통해 작동합니다.

사용하게 될 네 가지 Doubao Seed 2.0 모델 슬러그 (model slugs)는 다음과 같습니다:

volcengine/doubao-seed-2.0-pro
volcengine/doubao-seed-2.0-code
volcengine/doubao-seed-2.0-lite
volcengine/doubao-seed-2.0-mini

Pro 모델에서 비전 입력 (vision input)을 사용하려면, GPT-4o를 사용할 때와 정확히 동일하게 content 배열에 이미지 URL 또는 base64 페이로드 (payload)를 전달하면 됩니다. 스키마 (schema)는 동일합니다. 함수 호출 (function calling)의 경우, tools + tool_choice가 동일한 방식으로 작동합니다.

ofox는 기반이 되는 Volcengine API의 특이사항들 (예: max_tokens와 max_completion_tokens의 서로 다른 파라미터 이름, 약간 다른 reasoning-effort 플래그 등)을 OpenAI 표준 형태(OpenAI-standard shape)로 정규화하여, 여러분의 코드가 깔끔하게 유지되도록 합니다. Node 환경에서 호출하는 경우, npm install openai로 교체하면 되며 동일한 세 가지 변경 사항이 적용됩니다.

어떤 변형 모델을 선택할 것인가 — 라우팅 결정 트리 (routing decision tree)
무조건 Pro 모델을 기본값으로 선택하지 마세요. Seed 2.0 제품군의 핵심은 비용 등급별 라우팅 (cost-graded routing)에 있습니다.

실제 의사결정 방식은 다음과 같이 나뉩니다:

Mini ($0.06/$0.56)를 사용하는 경우:

분류 (Classification), 추출 (Extraction), 의도 라우팅 (Intent routing)
타이트한 루프 내에서 텍스트 재작성/압축
더 비싼 모델을 사용하기 전 입력값 사전 필터링 (Pre-filtering)
임베딩 프롬프트 생성 (쿼리 형식을 위해 LLM이 필요한 경우)

Lite ($0.13/$0.76)를 사용하는 경우:

일반적인 채팅, 고객 지원, RAG 생성
문서 요약 (256K 컨텍스트가 여기서 핵심 기능입니다)
Mini의 추론 능력이 한계를 보이는 콘텐츠 생성 작업
플래그십 수준의 추론이 필요 없는 요청의 80%를 처리하는 기본 작업용 모델

Code ($0.67/$3.36)를 사용하는 경우:

실제 파일을 편집하는 에이전트 (Agent) 내부에서 작동할 때
코드 리뷰, 리팩토링 제안, 테스트 생성
SWE-Bench 스타일의 다중 파일 추론 (Multi-file reasoning)이 중요한 모든 작업
코딩 이외의 작업에는 사용하지 마세요. Pro와 동일한 가격을 지불하면서 더 범용적인 모델을 사용할 수 있습니다.

Pro ($0.67/$3.36)를 사용하는 경우:

수학, 과학적 추론, 다단계 계획 (Multi-step planning)
멀티모달 (Multimodal, 이미지 + 비디오) 이해
Doubao의 학습 이점이 드러나는 중국어 관련 작업
Lite를 사용해 보았으나 사고 사슬 (Chain-of-reasoning) 단계에서 실패한 경우

비용 효율적인 스택은 보통 다음과 같습니다: Lite를 기본값으로 사용하고, 필요한 5~10%의 요청에 대해서만 Pro로 에스컬레이션 (Escalation)합니다. 에이전트 루프 (Agent loop)를 실행 중이라면, 파일 편집 단계는 Code로, 추론 단계는 Pro로 라우팅하세요.

Doubao Seed 2.0 vs 기타 저가형 API
모든 개발자가 던지는 질문:

V4 Flash는 양쪽 모두에서 더 저렴하며($0.14/$0.28 vs $0.13/$0.76), 4배 더 큰 1M 컨텍스트 창 (context window)을 제공하지만, Lite는 SWE-Bench에서 유의미하게 더 높은 점수를 기록합니다. 출력 비용 (output cost)이 지배적인 짧은 컨텍스트의 대량 작업의 경우 V4 Flash가 더 저렴한 선택지입니다. 반면, 표면적인 가격보다 추론 (reasoning) 품질이 더 중요한 작업의 경우, Lite가 토큰당 품질 (quality-per-token) 측면에서 여전히 승리합니다. Doubao Pro와 Qwen 3.6 Plus의 차이는 가격이 시사하는 것보다 더 근소합니다. Qwen은 SWE-Bench Verified에서 앞서며 (78.8 vs 76.5), 출력 비용도 약간 더 낮고 ($3.00 vs $3.36) 1M 컨텍스트 창을 제공합니다. 하지만 Doubao Pro는 수학 (AIME 98.3 vs 94.1) 및 멀티모달 (multimodal) 능력에서 더 강력합니다. 긴 컨텍스트를 사용하는 순수 코딩 작업에는 Qwen이 승리합니다. 에이전트형 멀티모달 (agentic multimodal) 작업과 어려운 수학 문제에는 Doubao Pro가 적합합니다. $0.06의 입력 비용을 가진 Doubao Mini는 진지한 모델이 갖춰야 할 최저 기준점입니다. 더 저렴한 오픈 웨이트 (open-weight) 모델들이 존재하지만, 이 정도의 벤치마크 수준에서 호스팅되고 지원되는 모델은 없습니다. 더 넓은 관점에서 보면, 2026년은 중국 벤더의 프런티어 모델들이 벤치마크 성능을 희생하지 않으면서 가격 하한선을 깨뜨린 해입니다.

제한 사항 및 주의 사항 (Limitations and gotchas)
도입을 결정하기 전에 알아두어야 할 몇 가지 사항이 있습니다.

영어 전용 긴 컨텍스트 (English-only long context). Pro 모델은 약 150K 토큰을 넘어서면 영어 비중이 높은 문서에서 눈에 띄는 회상 (recall) 저하가 발생합니다. ByteDance는 중국어에 최적화되어 있으며, 긴 컨텍스트 벤치마크 수치도 이를 반영합니다. 200K 이상의 영어 전용 작업의 경우, Gemini 3.1 Pro가 여전히 더 나은 선택입니다.

함수 호출의 특이점 (Function calling quirks). Doubao의 도구 사용 (tool-use) 스키마는 Claude보다 더 보수적입니다. Claude라면 호출했을 상황에서도 가끔 도구 호출을 주저합니다. 만약 Claude Code나 Codex CLI에서 에이전트를 포팅(porting)한다면, 도구 사용에 대해 더 지시적인(directive) 시스템 프롬프트 (system prompts)를 작성하여 강화해야 할 것입니다.

추론 모드 토큰은 전액 과금됩니다. Pro의 "생각하기" 출력 (추론 체인, reasoning chain)은 전체 출력 요율 (output rate)로 청구됩니다. 내부 추론 토큰에 할인을 제공하는 일부 제공업체와 달리, ByteDance는 모든 것을 청구합니다. 어려운 문제에 대한 긴 추론 체인은 출력 비용으로 쉽게 $0.50 이상에 달할 수 있습니다. 이에 따라 예산을 적절히 책정하십시오.

미국 데이터 거주성 (data residency) 옵션 없음 (현재 기준).

모든 Doubao Seed 2.0 추론은 중국 본토(직접 연결) 또는 싱가포르/홍콩(게이트웨이 경유)에 위치한 ByteDance 인프라에서 실행됩니다. 만약 귀하의 컴플라이언스(compliance) 요구사항이 미국 내 데이터 거주성(data residency)을 필요로 한다면, 이는 고려 대상이 아닙니다. 대신 Claude, GPT 또는 Gemini를 사용하십시오. 속도 제한(Rate limits)은 헤드라인에 표시된 가격이 시사하는 것보다 더 엄격합니다. Volcengine 직접 연결의 기본 티어(Default tier)는 약 5 RPS에서 시작하며, 사용 이력에 따라 확장됩니다. ofox는 이를 통합 큐(unified queue)로 추상화하여 대부분의 사용자는 이를 인지하지 못하겠지만, 급격한 트래픽 증가(burst-heavy)가 발생하는 서비스를 구축 중이라면 백오프 전략(backoff strategy)을 계획하십시오.

최종 결론: Doubao Seed 2.0은 "중국 벤더의 LLM"이 더 이상 "낮은 가격의 낮은 품질"과 동일시되지 않는다는 가장 명확한 신호입니다. 이제 이는 "미국 플래그십 모델과 대등한 벤치마크 성능을 훨씬 낮은 가격에 제공함"을 의미합니다. 고난도 수학(hard math)에 특화된 Pro 모델은 GPT-5.2 및 Claude Opus 4.6과 진정으로 경쟁할 만한 수준입니다. $0.13/MTok의 Lite 모델은 오늘날 시장에서 가장 가성비 좋은 워크호스(workhorse)이며, $0.06/MTok의 Mini 모델은 프로덕션(production) 환경에서 사용할 가치가 있는 모든 모델의 최저 기준점입니다.

문제는 접근성입니다. Volcengine의 직접 등록은 중국 외 지역의 개발자들에게 장벽이며, BytePlus의 엔터프라이즈 트랙은 개인 개발자에게는 과합니다. ofox.ai와 같은 OpenAI 호환 게이트웨이는 이를 "이메일 가입, API 키 하나, 문자열 변경만으로 모델 교체"라는 단순한 방식으로 평탄화합니다. 256K 컨텍스트(context)를 지원하는 $0.13/MTok의 Lite 모델은 MMLU-Pro에서 87.7점을 기록했습니다. 만약 귀하가 여전히 중간 단계의 작업을 10배 더 비싼 GPT-4급 모델로 라우팅하고 있다면, 잘못된 벤더에 자금을 지원하고 있는 것입니다. 실제 워크로드(workload)에 Lite 모델을 적용해 본 후 결정하십시오. 에이전트(agents), RAG 파이프라인, 대량의 콘텐츠 생성 등 규모에 따라 토큰 비용이 중요한 서비스를 구축 중이라면, 오후 시간을 내어 트래픽의 일부를 Seed 2.0 Lite 또는 Mini로 교체해 보고 현재 모델과의 품질 차이(quality delta)를 측정해 보십시오. 가격 측면의 레버리지(leverage)는 그 어떤

Doubao Seed 2.0 API 가이드: ByteDance의 가성비 LLM 가격 책정, 설정 및 벤치마크 (2026)

요약

핵심 포인트

댓글