Google I/O 리뷰 (1/5) — Gemini 3.5 'Flash'는 Flash 2.0보다 15배 더 비쌉니다. Pro의 탈을 쓴 - Insights | Molayo

Gemini 3.5 "Flash"는 Flash 2.0보다 15배 더 비쌉니다 — Pro의 탈을 쓴 모델입니다. Google I/O 2026 리뷰 — 5부작 중 1부. 기조연설 현장의 관중들은 환호했습니다. Sundar Pichai는 Gemini 3.5 Flash가 여러 벤치마크(benchmarks)에서 Gemini 3.1 Pro를 능가한다고 발표했습니다. 서사는 깔끔했습니다: 가볍고 저렴한 모델이 플래그십(flagship) 모델을 이겼다는 것입니다. "에이전트형 Gemini 시대"의 시작이었습니다. 그러다 저는 가격 페이지를 열었습니다.

Flash와 Pro는 이제 이웃 사촌입니다.

모델	입력 (1M 토큰당)	출력 (1M 토큰당)
Gemini 3.5 Flash	$1.50	$9.00
Gemini 3.1 Pro	$2.00	$12.00

출처: Google AI pricing, 2026-05-19 접속. Flash는 $1.50/$9.00이며, Pro는 $2.00/$12.00입니다. 이는 입력에서 25%, 출력에서 25%의 격차를 의미합니다. 이들은 서로 다른 계층(tiers)이 아닙니다. 이웃 수준입니다. 2년 전만 해도 Flash는 Pro의 아주 일부분에 불과한 가격이었습니다. 하지만 이제 그들은 같은 가격대를 공유합니다. 만약 누군가 라벨 없이 이 두 가격대를 보여준다면, 당신은 이들이 동일한 모델 클래스의 변형이라고 추측할 것입니다. 그리고 당신의 추측은 맞을 것입니다.

Flash가 여기까지 오게 된 과정: 3세대에 걸친 가격 상승

모델	입력 (1M 토큰당)	출력 (1M 토큰당)	vs 2.0 Flash (입력)	vs 2.0 Flash (출력)
1.5 Flash	$0.075	$0.30	0.75x	0.75x
2.0 Flash	$0.10	$0.40	1x (기준점)	1x (기준점)
2.5 Flash	$0.30	$2.50	3x	6.25x
3.0 Flash	$0.50	$3.00	5x	7.5x
3.5 Flash	$1.50	$9.00	15x	22.5x

출처: Google AI pricing. 모든 가격은 1M 토큰당 표준 가격(비 배치(non-batch) 기준)입니다.

2.0 Flash에서 3.5 Flash로: 입력 가격은 15배($0.10에서 $1.50로) 상승했습니다. 출력 가격은 22.5배($0.40에서 $9.00로) 상승했습니다. "Flash"라고 불리는 모델이 이제 3세대 전 Flash 가격의 15배에 달합니다. 궤적은 명확합니다. Flash는 가벼운 모델의 영역에 머물지 않았습니다. Flash는 Pro가 차지하던 가격대로 성장했습니다.

이름은 바뀌지 않았지만, 경제성은 바뀌었습니다. 제가 실제로 일어난 일이라고 생각하는 바는 다음과 같습니다: Google은 Pro 수준의 성능을 출시하면서 Flash라는 라벨을 붙였습니다. 벤치마크는 실제입니다. Flash 3.5는 Google이 보여준 지표에서 Pro 3.1를 실제로 능가합니다.

하지만 Pro와 거의 동일한 비용을 지불하면서 Pro를 능가한다는 것은 "저렴한 모델의 승리"가 아닙니다. 그것은 "비싼 모델이 새로운 이름을 얻었다"는 뜻입니다. Google의 입장에서 생각해 보십시오. 만약 그들이 이를 $1.50/$9.00 가격의 Pro 3.5라고 불렀다면, 이야기는 "Google이 Pro 가격을 25% 인하했다"가 되었을 것입니다. 정확하고 유용하지만, 키노트(Keynote)의 핵심적인 순간은 아닙니다. 하지만 이를 Flash라고 부름으로써 이야기는 "Flash가 Pro를 이겼다!"가 됩니다. 그것이 바로 키노트의 순간입니다. 제품의 경제성은 동일하지만, 서사(Narrative)가 달라진 것입니다. Pichai 본인도 이러한 프레임에 힘을 실었습니다. 그는 키노트 중에 "토큰맥싱 (tokenmaxxing)"이라는 단어를 사용했습니다. 더 많은 토큰, 더 많은 컨텍스트(Context), 더 높은 처리량(Throughput)을 의미합니다. 그는 어떤 이들은 이것을 토큰맥싱이라 부를 수도 있다고 말했습니다. 명명 방식은 그 서사의 일부입니다. Flash는 가볍고 저렴하게 들립니다. 하지만 가격 페이지는 다른 이야기를 하고 있습니다.

그렇다면 이것이 나쁜 것일까요? 꼭 그렇지는 않습니다. 공정하게 말하고 싶습니다. 브랜드 이름보다는 절대적인 가격이 더 중요합니다. $1.50/$9.00 가격에 Pro 수준의 성능을 제공하는 것은 진정으로 유용합니다. 에이전트(Agent) 워크로드를 생각해 보십시오. 하루에 50,000건의 대화를 처리하는 고객 지원 봇을 가정해 봅시다. 기존 Pro 가격($2.00/$12.00)에서, 응답당 500개의 토큰을 사용한다고 할 때 일일 출력 토큰 비용은 다음과 같습니다:

50,000건의 대화 x 500개의 출력 토큰 = 하루 2,500만 개의 출력 토큰
Pro 3.1의 경우: 25 x $12.00 = 하루 $300
Flash 3.5의 경우: 25 x $9.00 = 하루 $225

이는 동일하거나 더 나은 벤치마크 성능을 유지하면서도 하루에 $75, 즉 한 달에 약 $2,250를 절약하는 것입니다. 대규모로 실행되는 에이전트 중심의 워크로드의 경우, 이 가격대는 실질적인 경제적 여유를 제공합니다. 승리 포인트는 "Flash가 Pro를 이겼다"가 아닙니다. 승리 포인트는 Pro급 추론(Inference) 비용이 25% 저렴해졌다는 것입니다. 이는 더 조용한 이야기이지만, 더 정직한 이야기입니다.

벤치마크 vs. 프로덕션: 흔한 주의사항
키노트에서 다루지 않은 한 가지가 있습니다. 벤치마크 성능과 프로덕션(Production) 성능은 서로 다른 이야기라는 점입니다. 벤치마크는 통제된 조건 하에서 추론(Reasoning), 코딩(Coding), 지식 검색(Knowledge retrieval)과 같은 격리된 능력을 테스트합니다. 프로덕션 워크로드는 벤치마크가 측정하지 못하는 지연 시간(Latency) 변동성, 컨텍스트 윈도우(Context window) 압박, 도구 호출 체인(Tool-call chains), 그리고 실패 모드(Failure modes)를 추가합니다.

저는 아직 Flash 3.5를 실제 운영 환경(Production)에서 테스트하지 않았습니다. Google 외부의 그 누구도 테스트할 충분한 시간을 갖지 못했습니다. 만약 여러분이 키노트(Keynote)의 벤치마크(Benchmark) 결과만 보고 인프라 결정을 내리고 있다면, 불완전한 데이터를 바탕으로 결정을 내리고 있는 것입니다. 커뮤니티 벤치마크를 기다리십시오. 여러분만의 평가(Evals)를 기다리십시오.

Gemma 4: 로컬 테스트에서 얻은 짧은 노트
관련하여 — 저는 비용이 전혀 들지 않는 완전 오프라인 지식 엔진인 on-device-llm-wiki를 위해 Gemma 4 (2.3B)를 로컬에서 실행해 왔습니다. 온디바이스(On-device) 모델과 클라우드(Cloud) 모델을 아우르는 저희 내부 추론 벤치마크(Reasoning benchmark)에서 Gemma 4는 66/85점을 기록했습니다. 이는 Granite 3.4B (52), Qwen3 4B (28), SmolLM2 1.7B (35)를 능가하는 성적입니다. 참고로 Claude Haiku 4.5는 76점을 기록했습니다. 무료인 로컬 2B 모델이 상용 클라우드 모델 추론 점수의 87%에 도달하면서, 4B 경쟁 모델을 2배 이상 앞선다는 것은 단순한 점진적 개선이 아닙니다. 그것은 세대적 도약(Generational leap)입니다. 만약 Flash 3.5가 클라우드 규모에서도 동일한 세대적 향상을 보여준다면, 성능 주장은 타당할 수 있습니다. Gemma는 Gemini 제품군의 오픈 웨이트(Open-weight) 형제 모델이며, 한쪽의 품질 향상은 다른 쪽에도 반영되는 경향이 있습니다. 하지만 '타당할 수 있다'는 것이 '확인되었다'는 뜻은 아닙니다. 확인을 위해서는 키노트 슬라이드가 아니라 실제 운영 환경에서의 테스트가 필요합니다.

제가 권장하는 조치 사항

가격 페이지를 읽으십시오, 키노트가 아니라. 가격 페이지가 진실의 원천(Source of truth)입니다. 마케팅 서사는 진실이 아닙니다.

자체 평가(Evals)를 수행하십시오. 만약 Flash 3.5를 운영 환경에 도입하는 것을 고려 중이라면, 여러분의 워크로드(Workload)에서 테스트하십시오. 벤치마크 스위트(Benchmark suites)는 벤치마크 스위트가 측정하는 것만을 테스트할 뿐입니다.

실제 경쟁 모델과 비교하십시오. $1.50/$9.00 가격의 Flash 3.5는 Claude Sonnet 4 ($3/$15), GPT-4.1 ($2/$8), 그리고 다른 중상위 티어(Mid-to-high tier) 모델들과 경쟁합니다. 브랜드 이름이 아니라, 해당 가격대에서 동일한 조건(Apples to apples)으로 비교하십시오.

궤적(Trajectory)을 추적하십시오. Flash는 세 세대를 거치며 $0.10/$0.40에서 $1.50/$9.00로 상승했습니다. 이 패턴이 유지된다면, Flash 4.0의 가격은 현재 Pro의 가격이 될 것입니다. 이에 맞춰 계획을 세우십시오.

결론
Google은 저렴한 모델이 비싼 모델을 이긴다는 이야기를 들려주었습니다. 하지만 가격 페이지는 비싼 모델이 더 저렴한 이름을 갖게 되었다는 이야기를 들려줍니다.

두 이야기 모두 진실을 담고 있습니다. 벤치마크 (Benchmarks)는 실제이며, 가격의 수렴 (Price convergence) 또한 실제입니다. 어떤 이야기가 더 중요한지는 여러분이 무엇을 구축하느냐에 달려 있습니다. 저에게 유용한 시사점은 더 간단합니다: Pro급 성능을 이제 $1.50/$9.00에 사용할 수 있다는 것입니다. 이는 대규모로 에이전트 (Agents)를 실행하는 누구에게나 좋은 소식입니다. 다만 이것을 저렴하다고 부르지는 마십시오. 여러분이 기억하는 Flash보다 15배나 더 비쌉니다. 이것은 5부작 Google I/O 2026 리뷰 시리즈 중 제1부입니다. 다음 편: Managed Agents API — 서버리스 에이전트 (Serverless agents)의 등장, 그리고 GCP 락인 (Lock-in)의 도래. 만약 여러분의 워크로드 (Workloads)에서 Flash 3.5를 Pro와 직접 비교 테스트해 보셨다면, 그 수치를 듣고 싶습니다. 댓글을 남기거나 GitHub에서 저를 찾아주세요. 출처: Sundar Pichai I/O 2026 keynote, Google AI pricing page, on-device-llm-wiki

Gemini 3.5 "Flash"는 Flash 2.0보다 15배 비싸다 — 사실 Pro의 변장이다
Google I/O 2026 리뷰 — Part 1 of 5

키노트 객석이 환호했다. 순다르 피차이가 Gemini 3.5 Flash가 여러 벤치마크 (Benchmarks)에서 3.1 Pro를 능가한다고 발표했다. 서사는 깔끔했다: 가볍고 저렴한 모델이 플래그십 (Flagship)을 이겼다. "에이전틱 (Agentic) Gemini 시대"의 시작. 그런데 가격표를 열어봤다.

Flash와 Pro가 이제 이웃이다

모델	입력 (1M 토큰당)	출력 (1M 토큰당)
Gemini 3.5 Flash	$1.50	$9.00
Gemini 3.1 Pro	$2.00	$12.00

출처: Google AI 가격 페이지, 2026-05-19 확인. Flash $1.50/$9.00. Pro $2.00/$12.00. 입력 차이 25%, 출력 차이 25%. 다른 티어 (Tier)가 아니다. 이웃이다. 2년 전만 해도 Flash는 Pro의 몇 분의 1이었다. 이제 같은 블록에 산다. 라벨 (Label) 없이 이 두 가격만 보여주면, 같은 모델 클래스 (Model class)의 변형이라고 추측할 것이다. 맞는 추측이다.

Flash가 여기까지 온 과정: 3세대 가격 상승

모델	입력 (1M 토큰당)	출력 (1M 토큰당)	2.0 대비 입력	2.0 대비 출력
1.5 Flash	$0.075	$0.30	0.75배	0.75배
2.0 Flash	$0.10	$0.40	1배 (기준)	1배 (기준)
2.5 Flash	$0.30	$2.50	3배	6.25배
3.0 Flash	$0.50	$3.00	5배	7.5배
3.5 Flash	$1.50	$9.00	15배	22.5배

출처: Google AI 가격 페이지. 모든 가격은 표준 (비배치, Non-batch) 1M 토큰 기준.

2.0 Flash에서 3.5 Flash까지: 입력 가격 15배 상승 ($0.10 → $1.50). 출력 가격 22.5배 상승 ($0.40 → $9.00). "Flash"라는 이름을 달고 가격이 3세대 만에 15배 올랐다. 궤적이 명확하다. Flash는 경량 레인 (Lightweight lane)에 머물지 않았다. Pro가 차지하던 가격대로 올라왔다. 이름은 안 바뀌었다. 경제학이 바뀌었다.

실제로 일어난 일은 이렇다고 본다: 구글이 Pro급 성능을 만들어서 Flash 라벨을 붙였다. 벤치마크 (Benchmarks)는 진짜다. Flash 3.5가 구글이 보여준 지표에서 Pro 3.1을 실제로 능가한다. 하지만 Pro를 능가하면서 가격이 Pro와 거의 같다면, 그건 "싼 모델이 이겼다"가 아니다. "비싼 모델이 새 이름을 얻었다"이다. 구글 입장에서 생각해보자.

이걸 Pro 3.5라고 부르고 $1.50/$9.00에 내놨다면, 스토리는 "구글이 Pro 가격을 25% 내렸다"가 된다. 정확하고, 유용하지만, 키노트 (Keynote) 순간은 아니다. Flash라고 부르면 "Flash가 Pro를 이겼다!"가 된다. 이건 키노트 순간이다. 같은 제품 경제, 다른 서사. 피차이 (Pichai) 본인이 이 프레이밍 (Framing)을 밀었다. 키노트에서 "tokenmaxxing"이라는 단어를 썼다 — 토큰 더, 컨텍스트 (Context) 더, 처리량 (Throughput) 더. "some out there might call this tokenmaxxing"이라고 했다. 네이밍 (Naming)도 그 서사의 일부다. Flash는 가볍고 저렴하게 들린다. 가격표는 다른 이야기를 한다. 그래서 나쁜 건가? 꼭 그렇진 않다. 공정하게 말하고 싶다. 브랜드 이름보다 절대 가격이 중요하다. Pro급 성능이 $1.50/$9.00에 나온다는 건 진짜 유용하다. 에이전트 (Agent) 워크로드를 생각해보자 — 하루 5만 건의 대화를 처리하는 고객지원 봇. 레거시 (Legacy) Pro 가격 ($2.00/$12.00)에서 응답당 500 토큰 (Token) 출력이라면: 5만 대화 x 500 출력 토큰 = 일 2,500만 출력 토큰

Pro 3.1: 25 x $12.00 = 일 $300
Flash 3.5: 25 x $9.00 = 일 $225

일 $75 절감, 월 약 $2,250 — 같거나 더 나은 벤치마크 (Benchmark) 성능으로. 대규모 에이전트 워크로드에서 이 가격대는 실질적 경제적 여유를 만든다. 이긴 건 "Flash가 Pro를 이겼다"가 아니다. 이긴 건 Pro급 추론 (Reasoning)이 25% 싸졌다는 것이다. 더 조용한 이야기지만, 더 정직한 이야기다.

벤치마크 vs 프로덕션 (Production): 늘 있는 주의사항
키노트가 다루지 않은 것: 벤치마크 성능과 프로덕션 성능은 다른 대화다. 벤치마크는 통제된 조건에서 격리된 능력을 테스트한다 — 추론, 코딩, 지식 검색. 프로덕션 워크로드는 레이턴시 (Latency) 분산, 컨텍스트 윈도우 (Context Window) 압박, 도구 호출 (Tool Calling) 체인, 벤치마크가 측정하지 않는 실패 모드를 더한다. 나는 아직 Flash 3.5를 프로덕션에서 테스트하지 못했다. 구글 외부에서 충분한 시간을 가진 사람은 아무도 없다. 키노트 벤치마크만으로 인프라 (Infrastructure) 결정을 내린다면, 불완전한 데이터로 결정하는 것이다. 커뮤니티 벤치마크를 기다려라. 자체 평가를 기다려라.

Gemma 4: 로컬 테스트
짧은 메모 관련해서 — 나는 Gemma 4 (2.3B)를 on-device-llm-wiki( https://github.com/ww-w-ai/on-device-llm-wiki)에서 로컬로 돌리고 있다. 비용 제로, 완전 오프라인 지식 엔진이다. 자체 온디바이스 (On-device) + 클라우드 (Cloud) 모델 대상 추론 벤치마크에서 Gemma 4는 85점 만점에 66점 — Granite 3.4B (52), Qwen3 4B (28), SmolLM2 1.7B (35)를 압도했다. 참고로 Claude Haiku 4.5는 76점이다. 무료 로컬 2B 모델이 상용 클라우드 모델 추론 점수의 87%에 도달하면서 — 4B 경쟁 모델을 2배 이상 이기는 건 점진적 개선이 아니다. 세대적 도약이다. Flash 3.5가 같은 세대적 개선을 클라우드 스케일로 가져온다면, 성능 주장은 타당하다. Gemma는 Gemini 패밀리의 오픈 웨이트 (Open weights) 형제이고, 한쪽의 품질 향상은 다른 쪽에 반영되는 경향이 있다. 하지만 타당하다와 확인됐다는 다르다 — 그건 프로덕션 테스트가 필요하지, 키노트 슬라이드가 아니다.

내가 생각하는 해야 할 것
키노트가 아니라 가격표를 읽어라. 가격 페이지가 진실의 원천이다. 마케팅 서사는 아니다. 자체 평가를 돌려라. Flash 3.5를 프로덕션에 고려 중이라면, 본인 워크로드에서 테스트하라. 벤치마크 스위트 (Benchmark suite)는 벤치마크 스위트가 테스트하는 것을 테스트한다. 실제 경쟁 제품과 비교하라. Flash 3.5 $1.50/$9.00은 Claude Sonnet 4 ($3/$15), GPT-4.1 ($2/$8) 등 중~상위 티어 (Tier) 모델과 경쟁한다. 브랜드 이름이 아니라 가격대에서 같은 것끼리 비교하라. 궤적을 추적하라.

Flash는 단 3세대 만에 $0.10/$0.40에서 $1.50/$9.00으로 이동했다. 이 패턴이 유지된다면, Flash 4.0은 오늘날의 Pro 가격이 될 것이다. 이에 맞춰 계획하라. 결론적으로 구글은 저렴한 모델이 비싼 모델을 이겼다는 이야기를 했다. 가격표는 비싼 모델이 저렴한 이름을 얻었다는 이야기를 한다. 두 이야기 모두 진실이다. 벤치마크 (Benchmark)는 진짜다. 가격 수렴 (Price convergence)도 진짜다. 어떤 이야기가 더 중요한지는 무엇을 만들고 있느냐에 달려 있다. 나에게 유용한 결론은 더 단순하다: Pro급 성능이 이제 $1.50/$9.00에 있다. 대규모 에이전트 (Agent) 운영에 좋은 일이다. 다만 싸다고 부르지는 마라 — 당신이 기억하는 Flash보다 15배 비싸다. 이것은 Google I/O 2026 리뷰 5편 시리즈의 Part 1입니다. 다음: Managed Agents API — 서버리스 (Serverless) 에이전트가 도착했다, GCP 락인 (Lock-in)과 함께. Flash 3.5를 본인의 워크로드 (Workload)에서 Pro와 비교 테스트해보셨다면, 수치를 듣고 싶습니다. 댓글이나 GitHub에서 찾아주세요.

Google I/O 리뷰 (1/5) — Gemini 3.5 'Flash'는 Flash 2.0보다 15배 더 비쌉니다. Pro의 탈을 쓴

요약

핵심 포인트

댓글