Google이 세 가지 Gemini "Flash" 모델을 출시했습니다. 잘못 선택하면 AI 비용이 6배로 뛸 수 있습니다

이 글은 Google I/O 2026 Writing Challenge를 위한 제출물입니다. Google이 세 가지 Gemini "Flash" 모델을 출시했습니다. 잘못 선택하면 AI 비용이 6배로 뛸 수 있습니다. 저는 Google I/O 2026 기조 연설 직후에 모두가 이야기하던 새로운 모델을 사용해 보기 위해 Google AI Studio를 열었다가, 약간의 혼란에 빠졌습니다. 저는 "새로운 Flash 모델"을 찾으러 갔지만, 동일한 드롭다운 메뉴에 나란히 놓인 세 개의 모델을 발견했습니다. 이름이 너무 비슷해서 두 번은 읽어야 했습니다: Gemini 3.5 Flash, Gemini 3.1 Flash Lite, Gemini 3 Flash Preview. 세 가지의 서로 다른 버전 번호가 있었습니다. 모두 "Flash"라고 불렸습니다. 그리고 가격표를 읽었을 때, 저는 기조 연설에서 자세히 다루지 않았던 사실을 발견했습니다: 가장 저렴한 모델과 가장 비싼 모델 사이의 격차가 6배에 달한다는 점입니다. 여러분의 워크로드(Workload)에 맞지 않는 모델을 선택하면 단순히 약간 더 많은 비용이 나오는 것이 아니라, 필요하지 않은 작업에 대해 6배나 더 큰 비용을 지불하게 됩니다. 여기 실제 수치로 분석한 라인업, 6배의 함정에 대한 설명, 그리고 실제로 어떤 "Flash"를 선택해야 하는지에 대한 결정 가이드를 정리했습니다. 💡 [IMG:1] 세 가지 Flash 모델 분석 Pricing은 100만 토큰(1 million tokens)당 기준이며, Google의 공식 Gemini API 가격 책정을 따릅니다:

모델	용도	입력(Input) 가격	출력(Output) 가격	출시일
Gemini 3.1 Flash Lite 🆕	대량 처리, 번역, 단순 데이터 처리	$0.25	$1.50	2026년 5월 7일
Gemini 3 Flash Preview	속도 + 최첨단 지능; Computer Use 유지	$0.50	$3.00	2025년 12월 17일
Gemini 3.5 Flash 🆕	최첨단 에이전트(Agentic) + 코딩	$1.50	$9.00	2026년 5월 19일 (I/O 당일)

다시 한번 읽어보셔도 명명 규칙은 가이드로서 의미가 없습니다. 가장 높은 숫자(3.5)가 가장 비싸고 최신 모델이며, "Lite"(3.1)는 저렴한 작업용 모델이고, 가장 낮은 숫자(3)는 사실 세 모델 중 가장 오래된 모델입니다. 2025년 12월의 프리뷰(Preview) 모델인데 묘하게 중간 가격으로 책정되어 있습니다. 오직 두 모델(3.5 Flash와 3.1 Flash Lite)만이 진정으로 새로운 I/O 시대의 모델입니다. 버전 번호는 최신성이나 가격에 대해 아무것도 알려주지 않습니다. 모든 정보를 직접 읽어야 합니다.

6배의 함정, 쉽게 말해 양극단을 비교해 보겠습니다. Gemini 3.5 Flash는 입력과 출력 모두에서 3.1 Flash Lite보다 6배 더 비쌉니다. 그리고 비용 부담이 본격적으로 발생하는 지점은 바로 출력(output)입니다. 대부분의 AI 애플리케이션은 소비하는 토큰보다 훨씬 더 많은 토큰을 생성하기 때문입니다. 모든 답변, 모든 요약, 생성된 모든 코드 한 줄은 여러분이 $9.00를 지불해야 하는 출력물인 반면, Lite 모델은 $1.50면 충분합니다. 한 달에 5,000만 개의 출력 토큰을 생성하는 적당한 규모의 챗봇을 기준으로 계산해 보겠습니다.

Gemini 3.5 Flash: 5,000만 × $9.00/1M = 월 $450
Gemini 3.1 Flash Lite: 5,000만 × $1.50/1M = 월 $75

동일한 사용량임에도 불구하고, 단순히 어떤 "Flash"를 선택했느냐에 따라 월 $375, 연간 $4,500의 차이가 발생합니다. 만약 여러분의 작업이 번역, 분류(classification), 또는 단순 추출(extraction)이라면, 사용하지도 않을 "최첨단 코딩 지능(frontier coding intelligence)"을 위해 6배의 비용을 지불하고 있는 셈입니다.

하지만 "더 저렴한 것"이 항상 "정답"인 것은 아닙니다 — 벤치마크(benchmarks)를 살펴보면 Lite는 단순한 가격 인하가 아니라, 서로 다른 성능 계층(capability tier)임을 알 수 있습니다. Google이 발표한 수치(3.1 Flash Lite, 3.5 Flash)는 다음과 같습니다.

Gemini 3.1 Flash Lite — LMArena Elo ~1432, GPQA Diamond 86.9%. 가격 대비 진정으로 강력하지만, 처리량(throughput)에 최적화되어 있습니다.
Gemini 3.5 Flash — SWE-Bench Pro 55.1%, Terminal-Bench 2.1 76.2%. 단 한 번의 잘못된 단계가 이후의 모든 과정을 망칠 수 있는 길고 복잡한 다단계 에이전트(agentic) 및 코딩 작업에서도 견딜 수 있도록 설계되었습니다.

따라서 진짜 질문은 "어느 것이 더 저렴한가"가 아니라, "내 작업에 실제로 최첨단 코딩 모델이 필요한가, 아니면 사용하지도 않을 여유 성능(headroom)을 위해 과다 지불하고 있는가?"가 되어야 합니다.

어떤 Flash를 실제로 사용해야 할까요?
모델 선택기에 포함되었어야 할 결정 가이드는 다음과 같습니다.

Gemini 3.1 Flash Lite ($0.25/$1.50 모델)를 사용해야 하는 경우:
분류(classification), 태깅(tagging), 추출(extraction), 번역, 단순 요약 — 명확한 정답이 존재하는 대량의 작업. 6배 더 저렴하므로, 대부분의 프로덕션 트래픽에 적합합니다.

Gemini 3.5 Flash ($1.50/$9.00 모델)를 사용해야 하는 경우:
품질이 누적되어 영향을 미치고, 초기의 잘못된 단계가 이후의 모든 과정을 망치는 실제 에이전트 워크플로우(agentic workflows) 및 코드 생성 작업. 출력이 높은 가치를 지닐 때, 그리고 Lite 모델이 충분하지 않다는 것을 테스트한 후에만 비용을 지불하십시오.

Gemini 3 Flash Preview ($0.50/$3.00 모델)를 사용해야 하는 경우:
컴퓨터 사용(Computer Use) — 브라우저나 UI를 제어해야 할 때.

특히, 3.5 Flash는 Computer Use (컴퓨터 사용) 기능이 제외되었으므로, 해당 특정 기능이 필요한 경우에는 Google은 3 Flash Preview를 계속 사용할 것을 권장합니다 (상세 내용). 다만 "Preview" 모델은 변경되거나 사라질 수 있음을 기억하세요. 핵심 규칙은 다음과 같습니다: 기본적으로 Lite 모델을 사용하고, 반드시 필요하다는 것을 증명할 수 있을 때만 업그레이드하십시오. 대부분의 팀은 그 반대로 행동합니다. 가장 높은 버전 번호를 선택해 배포한 뒤, 조용히 평생 6배의 비용을 더 지불하게 됩니다.

아무도 언급하지 않은 두 가지 비용 조절 레버
토큰당 가격은 청구서의 절반에 불과합니다. 다음 두 가지 설정이 비용을 크게 변화시킵니다:

캐싱 (Caching)은 10배의 입력 할인 효과를 제공합니다. Gemini 3.5 Flash의 캐싱된 입력 비용은 $0.15로, 일반 입력 비용인 $1.50에 비해 10배 저렴합니다. 만약 프롬프트가 크고 고정된 부분(시스템 프롬프트, 문서, 스키마 등)을 공유한다면, 이를 캐싱함으로써 입력 비용을 대폭 절감할 수 있습니다. 대부분의 사람들은 이 기능을 켜지 않습니다.
"사고 수준 (Thinking level)" 다이얼은 모델이 얼마나 깊게 — 그리고 얼마나 비싸게 — 추론할지를 제어합니다. Gemini 3.x는 기존의 토큰 예산(token-budget) 설정을 minimal / low / medium / high 단계의 thinkingLevel로 대체했습니다 (문서). 더 많이 생각할수록 어려운 문제에 대해 더 나은 성능을 보이지만, 더 많은 시간과 더 많은 토큰이 소모됩니다. 기본값은 모델마다 다릅니다. 3.5 Flash는 medium이 기본값이며, Flash Lite는 minimal이 기본값입니다. Google은 호출의 대부분을 low 또는 minimal 사고 수준으로 라우팅하면 지출을 50~70%까지 줄일 수 있다고 언급했습니다. 따라서 여러분의 청구서는 단순히 어떤 모델을 쓰느냐뿐만 아니라, 모델이 얼마나 깊게 생각하도록 허용하느냐에 따라 결정됩니다. 작업의 난이도에 맞춰 노력을 맞추십시오.

배포 전 알아두어야 할 두 가지 세부 사항
무료 티어 (Free tier)는 실제로 존재하지만 제한이 있습니다. 세 모델 모두 속도 제한이 있는 무료 티어를 제공하며, 매월 5,000개의 무료 Google Search grounding (그라운딩) 프롬프트가 제공됩니다 (그 이후에는 1,000개당 약 $14). 프로토타이핑에는 훌륭하지만, 그라운딩 한도를 주의하십시오.

지식 컷오프 (Knowledge cutoff)는 2025년 1월입니다 — 출시 시점으로부터 약 16개월 전입니다. AI Studio의 모든 Flash 카드에는 2025년 1월 컷오프가 명시되어 있으며, 이는 이 2026년 5월 모델들이 I/O 2026 자체를 포함하여 2025~2026년 사이의 어떤 사건에 대해서도 기본적으로 알지 못한다는 것을 의미합니다. 최신 정보가 필요한 경우, Grounding with Google Search (매월 5,000개 무료, 이후 1,000개당 약 $14)를 활성화하십시오. 새로운 모델이라고 해서 반드시 최신 정보를 가진 모델인 것은 아닙니다.

핵심 요약: Google I/O 2026의 핵심 메시지는 "Gemini Flash는 빠르고, 똑똑하며, 저렴하다"였습니다. 하지만 모델 선택기(model picker)에 숨겨진 진실은 더 유용합니다. Flash는 단 하나가 아니라 여러 개가 존재하며, 캐싱(caching)이나 사고 수준(thinking dial)을 조절하기도 전에 거의 동일한 이름 뒤에 숨겨진 6배의 비용 차이가 존재한다는 점입니다. 이것은 불평이 아닙니다. $0.25짜리 작업용 모델(workhorse)과 최첨단(frontier) 코딩 모델을 동일한 제품군 내에서 보유하는 것은 진정으로 훌륭한 일입니다. 다만 이는 여러분이 내릴 가장 중요한 결정이 "Gemini를 사용할 것인가"가 아니라, "이 작업을 위해 어떤 사고 수준을 가진 어떤 Flash 모델을 사용할 것인가"라는 의미입니다. 이를 제대로 파악하면 최첨단 AI를 작업용 모델 가격으로 사용할 수 있습니다. 잘못 선택하면 작업용 업무에 최첨단 모델의 가격을 지불하게 됩니다. OpenAI Studio에서 세 가지 Flash 카드를 나란히 놓고, 여러분의 앱 작업 각각을 실제로 수행할 수 있는 가장 저렴한 모델과 매칭하십시오. 5분만 투자하면 AI 비용을 6배 이상 절감할 수 있습니다. 가격, 모델 세부 정보 및 사고 수준(thinking-level) 기본값은 I/O 2026 기간 동안의 Google 공식 Gemini API 문서 및 AI Studio를 기준으로 합니다 (Gemini 3.5 Flash는 2026년 5월 19일에 GA되었습니다). 수치는 변경될 수 있으므로 신뢰하기 전에 현재 수치를 확인하십시오. 주요 발표 목록: "Google I/O 2026에서 발표한 100가지 사항". 저는 AI의 도움을 받아 이 글을 작성했으며, 모든 수치를 Google 문서 및 AI Studio를 통해 직접 검증했습니다. 분석과 스크린샷은 본인의 것입니다.

Google이 세 가지 Gemini "Flash" 모델을 출시했습니다. 잘못 선택하면 AI 비용이 6배로 뛸 수 있습니다

요약

핵심 포인트

댓글