Gemini 3.5 Pro: 출시일, 예상 사양, 그리고 Flash 모델이 시사하는 점
요약
Google I/O 2026에서 Gemini 3.5 Pro의 공식 출시가 지연된 가운데, Gemini 3.5 Flash가 먼저 공개되었습니다. Flash 모델은 이전 세대인 Pro 모델을 능가하는 코딩 및 에이전트 벤치마크 성능을 보여주며 차세대 Pro 모델에 대한 기대감을 높이고 있습니다.
핵심 포인트
- Gemini 3.5 Pro는 2026년 6월 출시 예상
- Gemini 3.5 Flash가 코딩 및 에이전트 벤치마크에서 Pro 모델 성능 상회
- Flash 모델은 높은 처리량과 저렴한 API 비용 제공
- 차세대 모델은 Claude 및 GPT 시리즈와의 경쟁에 집중할 전망
Gemini 3.5 Pro: 출시일, 예상 사양, 그리고 Flash 모델이 시사하는 점
Google은 I/O 2026에서 자사의 플래그십 모델을 발표한 뒤, 관객들에게 한 달만 기다려 달라고 말했습니다. 대신 출시된 Flash 모델은 이미 코딩 벤치마크 (benchmarks)에서 이전 세대인 Pro 모델의 점수를 앞서고 있습니다.
요약 (TL;DR). Gemini 3.5 Pro는 5월 19일 Google I/O 2026의 헤드라이너가 될 예정이었습니다. 하지만 그렇지 못했습니다. Sundar Pichai는 관객들에게 "다음 달까지 기다려 달라"고 말했는데, 이는 확정된 날짜 없이 2026년 6월을 의미합니다. 실제로 출시된 것은 Gemini 3.5 Flash이며, 이 모델의 벤치마크 (benchmarks) 결과는 Pro 모델을 예측하는 데 가장 유용한 데이터입니다. Flash는 이미 Terminal-Bench 2.1 (76.2% vs 70.3%), MCP Atlas (83.6% vs 78.2%), 그리고 Finance Agent v2 (57.9% vs 43.0%)에서 Gemini 3.1 Pro를 능가하고 있습니다. 만약 Pro 모델이 Flash 모델과의 격차를 동일하게 유지한다면, Google은 6월에 코딩 및 에이전트 (agents) 중심의 플래그십 모델을 출시하게 될 것이며, 이는 Claude Opus 4.7 및 GPT-5.5에 맞서 진정한 재고를 강요할 것입니다. 이 글은 출시일, 가격, 성능, 그리고 여러분의 코드를 어떻게 준비해야 하는지에 대한 현실적인 분석입니다.
Google이 실제로 발표한 내용
Gemini 3.5 Pro라는 이름이 언급되었고, 내부적으로 데모가 진행되었으며, 홍보되었습니다. I/O 기조 연설에서 Sundar Pichai가 사용한 정확한 문구는 다음과 같습니다: "저희는 또한 3.5 Pro를 위해 열심히 작업하고 있습니다. 이미 내부적으로 사용되고 있으며, 다음 달에 출시되기를 기대하고 있습니다." 이것이 공식 성명의 전부입니다. 사양표 (spec sheet), 벤치마크 카드 (benchmark card), API 미리보기, 가격 책정 단계 (pricing tier) 등은 전혀 없었습니다.
이 지연 발표는 현장 관객들로부터 들릴 정도의 탄식을 자아냈으며 — 현장에 있던 Business Insider의 기자가 이를 포착했습니다 — 기조 연설의 다른 모든 요소들 (Spark, Antigravity 2, Search AI Mode)이 정작 존재하지 않는 Pro 티어 (Pro tier)를 중심으로 구성되었기 때문입니다. (Let's Data Science)
우리가 대신 얻은 것은 Gemini 3.5 Flash 출시였습니다. 입력 100만 토큰당 $1.50, 출력 100만 토큰당 $9.00, 100만 토큰의 컨텍스트 윈도우 (Context Window), 유사한 프런티어 모델 (Frontier Models) 대비 4배의 출력 토큰 처리량 (Throughput)을 제공하며, Gemini API, AI Studio, Vertex, Antigravity 2, 그리고 Gemini 앱에 출시 당일 바로 일반 사용 가능 (GA) 상태로 공개되었습니다. Flash는 실제로 작동하는 결과물입니다. 반면 Pro는 간접적인 증거를 통해 추론해야 하는 결과물입니다.
"다음 달"이 아마도 의미하는 시점
Google의 I/O 타이밍을 보면 정확한 날짜가 공개되지 않았더라도 그 범위를 알 수 있습니다. I/O 기조연설은 2026년 5월 19일이었습니다. "다음 달"은 6월 1일부터 6월 30일 사이의 범위를 의미합니다. 두 가지 사전 정보가 이를 좁혀줍니다.
- 3.5는 출시 순서를 뒤집고 있습니다 — 하지만 Pichai는 대기 시간을 제한했습니다. 역사적으로 Pro가 먼저 출시되었습니다. Gemini 3 Pro는 2025년 11월 18일에 출시되었고, 3 Flash는 12월 17일에 뒤따랐습니다. Gemini 3.1 Pro는 2026년 2월 19일에 출시되었고, 3.1 Flash 제품군이 그 이후에 배포되었습니다. 3.5 Flash가 I/O에서 선두로 나선 상황에서, Flash에서 Pro로 이어지는 간격을 설명할 깔끔한 선례는 없습니다. 우리가 가진 것은 기조연설에서 Pichai가 약속한 "다음 달"이라는 공약이며, 이는 대기 시간을 6월 30일로 제한합니다.
- Google의 분기별 주기. Pro 등급은 역사적으로 발표되었을 때 이사회에 보여지는 모습 (Board Optics) 등을 고려하여 부분적으로 분기 종료 전에 출시되었습니다. 6월 30일은 2분기(Q2) 종료일입니다. 안전성 문제나 서빙 용량 (Serving Capacity) 문제가 발생하지 않는 한, 6월 마지막 전체 주간 — 가장 유력한 추측은 6월 22일~26일 — 에 출시될 것으로 예상됩니다.
일정을 미룰 수 있는 요인: 추가적인 프런티어 안전 프레임워크 (Frontier Safety Framework) 평가 (Google은 모든 3.x 플래그십 모델에 대해 이 프로세스를 예고해 왔습니다), Spark와 새로운 에이전트 플랫폼이 용량을 점유할 경우의 TPU 서빙 용량 문제, 또는 논문 발표와 함께 진행되는 벤치마크 엠바고 (Benchmark Embargo) 등이 있습니다. 이 중 어느 것도 7월을 넘기지는 않을 것입니다.
Flash가 이미 Pro에 대해 말해주는 것
이것이 실제 분석 작업이며, 아직 출시되지 않은 모델을 예측하는 유일하고 정직한 방법입니다. Flash를 통해 명확해지는 세 가지 사항이 있습니다.
1. 세대 간의 도약은 점진적인 것이 아니라 실질적입니다
Gemini 3.5 Flash는 Google이 직접 우선순위를 두었던 벤치마크(benchmarks)에서 Gemini 3.1 Pro를 능가합니다. Google이 공개한 Gemini 3.5 Flash 모델 카드 (model card)에 따르면 다음과 같습니다:
| 벤치마크 (Benchmark) | 측정 항목 | 3.5 Flash | 3.1 Pro | 차이 (Delta) |
|---|---|---|---|---|
| Terminal-Bench 2.1 | 실제 터미널 코딩 작업 | 76.2% | 70.3% | +5.9 |
| ... |
코딩 및 에이전트 작업(coding-and-agentic work)에서 Flash 모델이 Pro 모델을 이긴 것은 이 제품군에서 이전에 없었던 일입니다. 이것이 시사하는 바는 다음과 같습니다: 3.5 세대는 단순한 품질 향상이 아니라, 특히 에이전트 루프(agentic loops)를 위해 재설계된 아키텍처(re-architecture)라는 점입니다. Pro 모델은 이러한 추세를 이어가야 합니다.
유용한 대략적 예측: 만약 3.1 Pro → 3.5 Pro의 변화가 3.1 Flash와 3.5 Flash 사이의 격차(에이전트 벤치마크에서 약 +6-15 포인트)를 반영한다면, Gemini 3.5 Pro는 Terminal-Bench에서 약 82-85%, MCP Atlas에서 약 88-90%, 그리고 Finance Agent v2에서 70점 이상을 기록할 것입니다. 이는 작업에 따라 이 벤치마크 세트에서 선두를 다투는 Claude Opus 4.7 및 GPT-5.5에 맞설 수 있는 플래그십(flagship) 영역입니다. 현재의 플래그십 벤치마크 대결과 비교해 보면, 만약 Pro 모델이 이 범위의 상단에 도달할 경우 상황은 의미 있게 변할 것입니다.
2. 가격에는 하한선과 상한선이 있습니다
Flash는 입력 100만 토큰당 $1.50, 출력 100만 토큰당 $9.00로 출시되었습니다. Gemini 3.1 Pro는 입력 100만 토큰당 $2.00, 출력 100만 토큰당 $12.00입니다. 이는 이례적인 구조입니다. Flash는 이제 이전 세대 Pro보다 25% 저렴하면서도 코딩 성능은 벤치마크상 더 우수합니다. 새로운 Pro 모델은 상업적 타당성을 갖추기 위해 3.1 Pro보다 더 높은 가격이 책정되어야 하지만, 가격이 너무 높으면 Flash + Pro 조합이 비용 최적화를 위해 DeepSeek V4 Pro와 Gemini Flash를 단일 엔드포인트로 묶는 방식보다 매력적이지 않게 될 수 있습니다.
3.5 Pro의 현실적인 가격대:
- 하한선 (Floor): 입력 1M당 $2.50, 출력 1M당 $15 (3.1 Pro 대비 25% 프리미엄이며, 이는 3.5 Flash가 3.1 Flash 대비 갖는 프리미엄과 유사함)
- 상한선 (Ceiling): 입력 1M당 $3.50, 출력 1M당 $20 (Anthropic 및 OpenAI의 플래그십 가격대와 겹치기 시작하여 차별성을 잃게 되는 상한선)
- 가장 가능성 높은 가격: 입력 1M당 $3.00, 출력 1M당 $18
비교를 위해: GPT-5.5는 대략 $5/$30이며, Claude Opus 4.7은 $5/$25입니다. 가격 범위의 상한선에서도 Gemini 3.5 Pro는 출력 중심의 워크로드(대부분의 에이전틱 루프 (agentic loops)가 이에 해당함)에 대해 유의미하게 더 저렴한 수준을 유지합니다.
3. 1M 컨텍스트 윈도우 (context window)는 유지된다
Gemini 3.5 Flash는 1,048,576 입력 / 65,536 출력 토큰 윈도우를 유지했습니다. Google이 3.5 세대에서 컨텍스트를 줄이려 한다는 증거는 없습니다. Pro 모델은 거의 확실하게 이를 유지하거나 확장할 것입니다. 긴 컨텍스트 (long context)는 Claude Opus 4.7 (기본 200k, 전용 롱 컨텍스트 변체에서 1M) 및 GPT-5.5 (표준 API를 통해 1M, Codex 내부에서 400k)와 더불어 Gemini의 주요 셀링 포인트로 남을 것이며, Google의 Project Mariner 및 Antigravity 2 제품 스토리 또한 이에 의존하고 있습니다. 오히려 3.5 Pro가 마케팅 포인트로서 2M 컨텍스트까지 밀어붙일 것으로 예상됩니다.
남은 의문점은 128k 이상의 구간에서의 회상 품질 (recall quality)입니다. 3.5 Flash는 실제로 128k에서 MRCR v2 성능이 퇴보했습니다 (3.1 Pro의 84.9% 대비 77.3%) — 즉, 6% 포인트 하락했습니다. 이러한 성능 퇴보는 3.5 Pro에 관한 가장 큰 미결 과제입니다. 만약 Pro 모델이 이를 그대로 물려받는다면
- 모달리티 (Modalities) 측면에서 비약적인 변화는 없을 것입니다. 3.5 Flash는 이미 텍스트, 이미지, 비디오, 오디오, PDF를 입력받아 텍스트를 출력합니다. Pro 모델도 출시 첫날에는 이 범위를 거의 확실히 충족하겠지만, 이를 확장하지는 않을 것입니다. 네이티브 이미지 출력 (Native image-out) 기능은 메인 Gemini 채팅 계층이 아닌 Nano Banana / Imagen에 존재합니다.
- Flash의 가격 아래로 내려가지는 않을 것입니다. Google은 마진을 확보할 수 있는 Pro 계층이 필요합니다. Flash와 Pro를 모두 두는 핵심 목적은 작업 민감도(workload sensitivity)에 따른 가격 차별화 (price discrimination)에 있습니다.
- 출시일 전에 공개적인 모델 카드 (model card)가 제공되지는 않을 것입니다. Google의 패턴은 모델 카드 공개와 일반 가용성 (GA)을 동시에 진행하는 것이었습니다. 벤치마크 유출을 기대하기보다는, 발표 자료(deck)가 준비된 상태로 화요일 아침에 출시될 것을 예상하십시오.
- 명칭은 아마도 "Gemini 3.5 Pro"로 유지될 것입니다. 이름 변경을 시사하는 신호는 없었으며, Google은 3.x 세대에서 OpenAI보다 명칭 관리 (naming-disciplined)를 더 엄격하게 해왔습니다.
오늘 준비해야 할 사항
Gemini 3.5 Pro가 출시되는 즉시 이를 활용할 서비스를 배포할 계획이라면, 실질적인 준비 사항은 다음과 같습니다:
1. 지금 바로 3.5 Flash를 기준으로 구축하십시오. 이번 세대에서는 Flash와 Pro 계층 간의 API 표면 (API surface)과 도구 사용 (tool-use) 형태가 동일합니다. ofox를 통해 모델 ID는 google/gemini-3.5-flash입니다. Pro가 출시되면 google/gemini-3.5-pro로 교체하기만 하면 되며, SDK나 스키마 (schema)를 다시 작성할 필요는 없습니다. ofox의 OpenAI 호환 엔드포인트는 어떤 경우든 요청 변환을 처리합니다.
# 현재
client.chat.completions.create(
model="google/gemini-3.5-flash",
...
2. 라우팅 (routing) 시 Flash를 하한선으로 사용하십시오. 일반적인 패턴은 다음과 같습니다: 사소한 작업은 Flash로 라우팅하고, Flash가 낮은 신뢰도 (low confidence)를 반환할 때만 플래그십 모델 (Opus 4.7, GPT-5.5, 또는 곧 출시될 Gemini 3.5 Pro)로 에스컬레이션 (escalate)하는 것입니다. 이에 대한 프로덕션급 버전은 Claude Code 하이브리드 라우팅 패턴을 참조하십시오. 3.5 Pro가 출시되면 에스컬레이션 게이트 뒤에 위치할 플래그십 모델만 교체하면 되며, 라우팅 로직 자체는 변경되지 않습니다.
3. 가격을 미리 확정하지 마십시오. 위에서 언급한 현실적인 범위($2.50-$3.50 입력, $15-$20 출력)는 정보에 기반한 추측입니다. 재무 보고를 위한 비용 전망을 작성 중이라면, 해당 범위의 양 끝값을 모두 대입하여 두 가지 시나리오를 제출하십시오.
모델 선택을 위한 더 큰 그림
2026년 6월 말에는 세 가지 일이 동시에 일어납니다:
- Claude Opus 4.7은 여전히 추론 중심의 벤치마크, 특히 장기적 관점의 에이전트 실행 (long-horizon agent runs) 분야를 점유하고 있습니다.
- GPT-5.5는 순수 멀티모달 추론 (multimodal reasoning)과 가장 깊은 도구 생태계를 보유하고 있습니다.
- Gemini 3.5 Pro는 — 만약 Flash의 발전이 이어진다면 — 가격 면에서 두 모델을 모두 밑돌면서, Terminal-Bench 스타일의 에이전트 기반 코딩 (agentic coding) 분야에서 두 모델을 압박할 것입니다.
적절한 모델을 선택하는 일은 쉬워지기 전에 더 어려워집니다. LLM API 선택 결정 매트릭스 (LLM API selection decision matrix)와 리더보드 보기 (the leaderboard view)는 Pro 모델이 출시되는 주에 모두 새로 작성되어야 할 것입니다. 선택 방법에 대한 정석적인 삼자 비교 프레임워크는 Claude vs GPT vs Gemini 비교 가이드 (Claude vs GPT vs Gemini comparison guide)를 참조하십시오. 이 문서가 가장 큰 업데이트를 받게 될 것입니다.
만약 오늘 모델을 선택해야 하고 작업이 코딩 및 에이전트(coding-and-agents)에 치중되어 있다면, Gemini 3.5 Flash는 이미 이전 세대 Pro 모델보다 25% 낮은 비용으로 이를 능가하고 있습니다. 기다릴 이유가 없습니다. 만약 작업이 추론 중심이거나 긴 문맥 회상 품질 (long-context recall quality)이 중요하다면, 당분간은 Gemini 3.1 Pro 또는 Claude Opus 4.7을 유지하다가 Pro 모델이 출시되면 다시 평가하십시오. 하지 말아야 할 행동은, 새로운 화려한 모델이 이번 주에 해결할 수 있는 문제를 대신 해결해 줄 것이라고 가정하며 손을 놓고 기다리는 것입니다.
Pro 모델 카드가 존재하기도 전에 6주간의 공개적인 Flash 벤치마크 결과가 나왔습니다. 그리고 이 결과들은 코딩 분야의 비용 대비 품질 경계선(cost-quality frontier)이 6월 말 어느 화요일에 이동할 것임을 시사하고 있습니다.
출처 및 인용
- Sundar Pichai의 "다음 달" 발언 및 I/O 2026 기조연설 프레임워크: Google 공식 블로그 (2026년 5월 19일)
- Gemini 3.5 Flash 벤치마크 그리드: DeepMind 모델 카드 (model card)
- Flash 가격 책정 및 컨텍스트 윈도우 (context window): Google AI for Developers — Gemini API 변경 로그 (changelog)
- 지연 프레임워크 및 청중 반응: Let's Data Science I/O 요약
- Claude Opus 4.7 및 GPT-5.5의 비교 가격: 작성 시점의 ofox 모델 카탈로그를 통해 확인됨
원문은 ofox.ai/blog에 게시되었습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 Dev.to AI tag의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기