
Gemini 3.5 Flash: 더 비싸졌지만, Google은 모든 곳에 사용할 계획이다
요약
Google이 Gemini 3.5 Flash를 일반 가용성(GA) 단계로 출시하며 Gemini 앱, Google 검색, 개발자 플랫폼 등 자사 주요 서비스에 전면 도입합니다. 이번 모델은 이전 버전 대비 가격이 크게 인상되었으나, 100만 토큰 이상의 긴 컨텍스트 창과 향상된 성능을 제공합니다.
핵심 포인트
- Gemini 3.5 Flash는 preview 단계를 거치지 않고 즉시 일반 가용성(GA) 단계로 출시됨
- 입력 100만 토큰당 $1.50, 출력 100만 토큰당 $9로 이전 Flash 모델 대비 가격이 대폭 인상됨
- 1,048,576개의 입력 토큰과 65,536개의 출력 토큰을 지원하며 지식 컷오프는 2025년 1월임
- 서버 측 히스토리 관리를 지원하는 새로운 Interactions API(베타)가 도입됨
- 주요 AI 연구소들이 모델 성능 향상과 함께 API 가격을 점진적으로 인상하는 트렌드를 보임
Gemini 3.5 Flash: 더 비싸졌지만, Google은 모든 곳에 사용할 계획이다
2026년 5월 19일
오늘 Google I/O에서 Google은 Gemini 3.5 Flash를 출시했습니다. 이 모델은 -preview 수식어를 건너뛰고 바로 일반 가용성 (General Availability) 단계로 진입했으며, Google은 자사의 수많은 주요 제품에 이 모델을 사용하려는 것으로 보입니다.
3.5 Flash는 오늘 전 세계 수십억 명의 사용자에게 제공됩니다:
- Gemini 앱 및 Google 검색의 AI 모드를 통한 모든 사용자
- 에이전트 우선 개발 플랫폼인 Google Antigravity, 그리고 Google AI Studio 및 Android Studio의 Gemini API를 사용하는 개발자
- Gemini Enterprise Agent Platform 및 Gemini Enterprise를 사용하는 기업
Gemini의 경우 늘 그렇듯, 가장 흥미로운 세부 사항은 'Gemini 3.5 Flash의 새로운 기능 (What’s new in Gemini 3.5 Flash)' 개발자 문서에 숨겨져 있습니다. 이 모델은 컴퓨터 사용 (Computer Use) 기능은 없지만, 이전 Gemini 3.x 시리즈와 거의 동일한 플랫폼 기능 세트를 가지고 있습니다. 모델 ID는 gemini-3.5-flash입니다. 지식 컷오프 (Knowledge cut-off)는 2025년 1월이며, 1,048,576개의 입력 토큰 (Input tokens)과 65,536개의 최대 출력 토큰 (Output tokens)을 지원합니다.
Google은 또한 현재 베타 버전인 새로운 상호작용 API (Interactions API)를 밀어붙이고 있는데, 이는 제가 보기에 OpenAI Responses에서 도입된 패턴, 특히 서버 측 히스토리 관리 (Server-side history management)의 Google 버전처럼 보입니다.
가격이 인상되었습니다
Gemini 3.5 Flash는 눈에 띄는 가격 인상을 동반합니다. 기존의 "Flash" 제품군 모델은 Gemini 3 Flash Preview와 Gemini 3.1 Flash-Lite였습니다. 새로운 3.5 Flash는 3 Flash Preview보다 3배 비싸고, 3.1 Flash-Lite보다 6배 비쌉니다 (가격 비교는 여기서 확인하세요).
입력 100만 토큰당 $1.50, 출력 100만 토큰당 $9의 가격으로, 이는 $2와 $12인 Google의 Gemini 3.1 Pro 가격에 근접하고 있습니다.
Gemini 팀은 3.5 Pro가 "다음 달"에 출시될 것이라고 약속했습니다. 아마도 훨씬 더 높은 가격으로 출시될 것으로 추정됩니다.
이는 하나의 트렌드와 일치합니다. OpenAI의 GPT-5.5는 GPT-5.4보다 2배 비쌌고, 새로운 토크나이저 (Tokenizer)를 고려하면 Claude Opus 4.7은 4.6보다 약 1.46배 비쌉니다.
가격 인상을 고려할 때, Google이 자사의 수많은 소비자용 무료 제품에 이를 배포하는 모습은 흥미롭습니다. 마치 3대 주요 AI 연구소 모두가 API 고객들의 가격 수용도를 탐색하기 시작한 것처럼 느껴집니다.
Artificial Analysis는 모델들을 대상으로 자체 벤치마크를 실행하는 데 드는 비용을 공개하는데, 이는 토큰화 (Tokenization)나 추론 토큰 (Reasoning tokens) 볼륨의 증가와 같은 요소들을 고려할 수 있는 유용한 방법입니다. 비교해 볼 만한 수치들은 다음과 같습니다:
- Gemini 3.5 Flash (high): $1,551.60
- Gemini 3.1 Pro Preview: $892.28
- Gemini 3 Flash Preview (Reasoning): $278.26
- Gemini 3.1 Flash-Lite Preview: $93.60
3.5 Flash (high)에 대해 벤치마크를 실행하는 비용은 3.1 Pro Preview보다 훨씬 더 많이 들었습니다!
다른 벤더들의 수치는 다음과 같습니다:
- Claude Opus 4.7 (Adaptive Reasoning, Max Effort): $5,117.14
- Claude Opus 4.7 (Non-reasoning, High Effort): $1,217.23
- GPT-5.5 (xhigh): $3,357.00
- GPT-5.5 (medium): $1,199.14
자전거를 타는 펠리컨
Gemini API를 대상으로 “자전거를 타는 펠리컨의 SVG를 생성해줘”라는 프롬프트를 실행했고, 다음과 같은 펠리컨을 얻었는데, 이는 상당한 수준입니다:
코드 주석 내용: <!-- Pelican Eye / Sunglasses (Cool Retro Aviators) -->
그 펠리컨은 마치 암호화폐 컨퍼런스를 위해 마이애미에 와 있는 것처럼 보입니다.
이 작업에는 11개의 입력 토큰 (Input tokens)과 14,403개의 출력 토큰 (Output tokens)이 소요되었으며, 총비용은 13센트가 조금 안 되었습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 Simon Willison Blog의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기