AI API 가격 전쟁 격화: DeepSeek V4-Pro 75% 인하 및 Gemini 3.5 Flash 출시

요약

DeepSeek의 V4-Pro API 가격 75% 영구 인하와 Google의 Gemini 3.5 Flash 출시로 AI API 시장의 가격 경쟁이 격화되고 있습니다. 모델 간의 압도적인 가격 차이와 추론 최적화 기술이 결합되어 개발 비용 절감이 가속화되는 추세입니다.

핵심 포인트

DeepSeek V4-Pro가 기존 대비 75% 인하된 가격을 영구 적용
Google Gemini 3.5 Flash 출시로 속도와 컨텍스트 윈도우 경쟁 심화
DeepSeek가 Gemini 대비 텍스트 출력 비용 면에서 압도적 우위 점유
추론 최적화 기술 발달로 인한 전반적인 AI API 단가 하락

AI API 가격 전쟁 격화: DeepSeek V4-Pro 75% 인하 및 Gemini 3.5 Flash 출시

2026년 5월 31일은 AI API 시장의 이정표가 될 날로 자리 잡고 있습니다. 두 가지 사건이 동시에 발생하고 있습니다:

DeepSeek V4-Pro의 75% 가격 인하가 영구화됨 — 일시적인 프로모션이 종료되고, 해당 할인율이 새로운 기준가가 됩니다.
Google의 Gemini 3.5 Flash가 I/O 2026에서 공개되었으며, 4배 빠른 속도와 10달러 미만의 출력(output) 가격을 자랑합니다.

메시지는 명확합니다: AI API 가격 전쟁은 더 이상 서서히 타오르는 수준이 아니라, 끓어 넘치고 있습니다.

현재 상황: DeepSeek V4-Pro의 공격적인 행보

지난 5월 22일, DeepSeek는 폭탄 선언을 했습니다: V4-Pro API 가격이 원래 가격의 약 4분의 1 수준으로 영구 고정될 것이라는 내용입니다. 5월 31일에 만료될 예정이었던 75% 할인이 이제 영구적인 요율이 되었습니다.

새로운 가격 체계는 다음과 같습니다:

모델	입력 (1M 토큰당)	출력 (1M 토큰당)	컨텍스트 윈도우 (Context Window)
DeepSeek V4-Pro	$0.435	$0.87	128K
...

가격은 2026년 5월 기준입니다. 출처: 공식 API 문서 및 제3자 애그리게이터(aggregators).

DeepSeek V4-Pro의 1M 토큰당 $0.87 출력 가격은 GPT-4o보다 10배 저렴하며, Claude Haiku 4.5보다 5배 저렴합니다. 요청당 수천 개의 토큰을 생성하는 AI 에이전트(agents), 챗봇(chatbots) 또는 자동화된 워크플로우(workflows)를 구축하는 개발자들에게 이 절감 효과는 빠르게 누적됩니다.

이번 인하가 이전보다 더 중요한 이유

이것은 단순히

뒤처지지 않기 위해, Google은 I/O 2026에서 Gemini 3.5 Flash를 공개했으며, 그 수치는 매우 인상적입니다:

다른 프런티어 모델 (frontier models)보다 4배 더 빠름
100만 토큰 컨텍스트 윈도우 (context window) — 동급 최대 규모
100만 입력/출력 토큰당 $1.50/$9.00로 책정
코딩 및 에이전트 벤치마크에서 Gemini 3.1 Pro를 능가함

Google은 Flash를 대량 작업용 워크호스 (workhorse)로 포지셔닝하고 있습니다. 실시간 애플리케이션에 충분히 빠르고, 대규모로 실행하기에 충분히 저렴하며, 멀티모달 (multimodal; 텍스트, 비전, 비디오, 오디오 모두 네이티브 지원) 기능을 갖추고 있습니다.

트레이드오프 (trade-off)는 무엇일까요? 출력 토큰 100만 개당 $9.00라는 가격은 순수 텍스트 워크로드 기준으로 DeepSeek V4-Pro보다 여전히 10배 더 비쌉니다. 만약 귀하의 앱에 멀티모달 기능이 필요하지 않다면, 이 비용 차이는 무시하기 어렵습니다.

더 큰 그림: 왜 모든 API가 저렴해지고 있는가

이것은 무작위적인 현상이 아닙니다. 세 가지 구조적 동력이 전반적인 가격 하락을 주도하고 있습니다:

1. 추론 최적화 (Inference Optimization)가 비용을 절감하고 있음

투기적 디코딩 (speculative decoding), 양자화 (quantization), 커널 퓨전 (kernel fusion)과 같은 기술들이 GPU 초당 더 많은 토큰을 짜내고 있습니다. DeepSeek의 V4-Pro 아키텍처 자체도 V3보다 추론 효율성이 몇 배 더 높은 것으로 알려져 있습니다.

2. 잔혹한 경쟁

시장은

비용에 민감하다면 (대부분의 사용자가 그러하듯):
DeepSeek V4-Pro로 시작하세요. 출력 토큰 100만 개(M)당 0.87달러라는 가격 덕분에, API 비용이 걱정되기 전까지 수천 명의 사용자에게 서비스를 제공할 수 있습니다. OpenAI 호환 API (OpenAI-compatible API)를 지원하므로 최소한의 코드 변경만으로 제공업체를 교체할 수 있습니다.

멀티모달 (시각, 오디오, 비디오) 기능이 필요하다면:
Gemini 3.5 Flash가 명확한 선택지입니다. 경쟁력 있는 가격에 100만(1M) 컨텍스트 창 (context window)을 갖춘 네이티브 멀티모달 (native multimodal) 지원을 제공합니다. 이 가격대에서 이미지와 비디오를 네이티브로 처리할 수 있는 모델은 다른 곳에 없습니다.

규제 산업(GDPR, HIPAA 등)에 종사한다면:
AWS Bedrock을 통한 Claude 또는 Azure의 관리형 서비스 (managed offerings)를 고려하세요. 규제 준수 (compliance)를 위한 추가 비용을 지불할 가치가 있습니다.

하이브리드 접근 방식 (권장):
DeepSeek V4-Pro를 기본 모델로 사용하고, 멀티모달 작업 시에는 Gemini Flash로 폴백 (fallback) 하세요. 이를 통해 저렴한 텍스트 처리와 강력한 시각 기능이라는 두 마리 토끼를 모두 잡을 수 있으며, 특정 제공업체에 종속되는 락인 (lock-in) 현상도 방지할 수 있습니다.

# 예시: 비용 최적화를 적용한 멀티 제공업체 라우팅 (Multi-provider routing)
import openai

...

함정: 접근성은 여전히 장벽입니다

이 모든 가격 인하 뒤에 숨겨진 불편한 진실은 다음과 같습니다: 아예 접근조차 할 수 없다면 저렴한 API 접근성은 아무런 의미가 없습니다.

DeepSeek의 공식 API는 여전히 가입을 위해 중국 전화번호를 요구합니다. Google의 API는 여러 지역에서 지리적 제한 (geo-restricted)이 걸려 있습니다. 또한 대부분의 국제 개발자들은 지역 결제 수단으로 결제할 수 없습니다.

이것이 바로 AiCredits가 해결하고자 하는 문제입니다.

저희는 다음과 같은 혜택과 함께 DeepSeek V4-Pro에 대한 OpenAI 호환 접근성을 제공합니다:

중국 전화번호 불필요
PayPal 및 해외 신용카드 결제 가능
전 세계 어디서나 낮은 지연 시간 (low-latency)을 보장하는 싱가포르 CDN
기대하시는 것과 동일한 DeepSeek V4-Pro의 품질

안정적인 DeepSeek API 접근이 필요하신가요? AiCredits를 이용해 보세요 — OpenAI 호환, 중국 전화번호 불필요, PayPal 결제 가능. 플랜은 500만(5M) 토큰 기준 3달러부터 시작합니다.

원문은 AiCredits Blog에 게시되었습니다.

AI 자동 생성 콘텐츠

원문 바로가기

AI API 가격 전쟁 격화: DeepSeek V4-Pro 75% 인하 및 Gemini 3.5 Flash 출시

요약

핵심 포인트

AI API 가격 전쟁 격화: DeepSeek V4-Pro 75% 인하 및 Gemini 3.5 Flash 출시

현재 상황: DeepSeek V4-Pro의 공격적인 행보

이번 인하가 이전보다 더 중요한 이유

더 큰 그림: 왜 모든 API가 저렴해지고 있는가

1. 추론 최적화 (Inference Optimization)가 비용을 절감하고 있음

2. 잔혹한 경쟁

함정: 접근성은 여전히 장벽입니다

댓글