에이전트 기반 코딩을 위한 Gemini 3.5 Flash: Claude 코더를 위한 가이드

이 기사는 원래 avinashsangle.com에 게시되었습니다.

Gemini 3.5 Flash는 Google의 새로운 Flash 등급 코딩 모델로, 2026년 5월 19일부터 일반적으로 사용 가능(GA)합니다. 이 모델은 Terminal-Bench 2.1에서 76.2%, MCP Atlas에서 83.6%를 기록하며, 15개의 벤치마크 중 11개에서 Gemini 3.1 Pro를 능가했습니다. 가격은 100만 토큰당 입력 $1.50, 출력 $9입니다. Claude Code 사용자에게 이 모델은 도구 중심의 에이전트 루프(agent loops)에 적합한 모델이며, 프로덕션 코드 편집을 대체하는 용도는 아닙니다.

요약 (TL;DR)

정의: Gemini 3.5 Flash (2026년 5월 19일 GA)는 에이전트 기반 벤치마크에서 Gemini 3.1 Pro보다 뛰어난 성능을 보이면서도, Pro 등급보다 토큰당 비용이 25% 저렴한 Flash 등급 모델입니다.
가격 현실: 100만 토큰당 $1.50/$9는 저렴해 보이지만, Gemini 3 Flash Preview보다 3배 비싸며, Artificial Analysis에 따르면 전체 벤치마크 세트 실행 시 약 5.5배 더 비쌉니다.
thinking_level 함정: 기본 설정이 high에서 medium으로 낮아졌습니다. gemini-3-flash-preview에서 복사하여 붙여넣은 코드는 조용히 더 낮은 수준의 출력을 생성합니다. 에이전트 기반 코딩을 위해서는 thinking_level: "low"를 명시적으로 설정하십시오.
Flash가 승리하는 영역: MCP 도구 오케스트레이션 (MCP Atlas 83.6%, Claude Opus 4.7보다 4.5포인트 높음), 병렬 함수 호출 (parallel function calling), 빠른 반복적 에이전트 루프.
Claude Code가 여전히 승리하는 영역: 프로덕션 코드베이스 편집 (Sonnet 4.6이 SWE-Bench Verified에서 선두), 방어적 코드 (defensive code), 128k 토큰 이상의 긴 컨텍스트 검색 (long-context retrieval).
라우팅 규칙: Edit 및 Write 작업에는 Claude Code를 유지하고, MCP 중심의 계획(planning) 및 도구 확산(tool fan-out) 작업은 OpenRouter 또는 가벼운 커스텀 MCP 서버를 통해 Gemini 3.5 Flash로 라우팅하십시오.

Gemini 3.5 Flash란 무엇이며 2026년 5월 19일에 무엇이 바뀌었는가

Gemini 3.5 Flash는 Google이 I/O 2026에서 발표하고 당일 즉시 GA(General Availability, 일반 사용 가능) 단계로 출시한 Flash 등급의 Gemini 모델입니다. 이 모델은 실제 에이전트 기반 코딩(agentic coding) 벤치마크에서 이전의 Pro 등급을 능가하는 최초의 Flash 등급 모델입니다. 출시 관련 소식은 공식 Google 블로그에서 확인할 수 있으며, 기술적인 세부 사항은 Google DeepMind 모델 카드에 명시되어 있습니다.

이 모델은 Gemini API, AI Studio, Antigravity CLI (Gemini CLI의 후속작), Vertex AI, Gemini 앱, Search의 AI Mode, 그리고 5월 19일 변경 로그에 따라 이제 GitHub Copilot에서도 사용할 수 있습니다. 컨텍스트 윈도우(context window)는 1,048,576 입력 토큰이며, 출력 제한은 65,536 토큰입니다.

Claude Code 사용자에게 이것이 중요한 이유: 저렴한 모델이 이제 프로덕션 에이전트 루프(production agent loops)를 처리할 수 있을 만큼 충분히 똑똑해졌다는 점입니다. 이는 충성도의 문제가 아니라 라우팅(routing) 계산의 문제입니다. 만약 여러분이 이미 Claude Code 내부에서 Sonnet 4.6 또는 Opus 4.7을 실행하고 있다면, 기존 스택을 버릴 필요는 없습니다. 대신 어떤 하위 작업(subtasks)을 이제 더 저렴하고 빠른 Gemini 호출로 넘길지 결정하면 됩니다.

Gemini 3.5 Flash 벤치마크: Gemini 3.1 Pro를 앞서는 지점

Gemini 3.5 Flash는 에이전트 기반 코딩(agentic coding)에서 가장 중요한 지표들을 포함하여, Gemini 3.1 Pro와 비교한 15개의 공개 벤치마크 중 11개에서 승리했습니다. Google DeepMind 모델 카드와 WaveSpeed 요약에서 발췌한 주요 수치는 다음과 같습니다.

벤치마크 (Benchmark)	Gemini 3.5 Flash	Gemini 3.1 Pro	Claude Opus 4.7	GPT-5.5
Terminal-Bench 2.1	76.2%	70.3%	n/a	78.2%
...

Claude Code 사용자에게 해당 표에서 가장 중요한 단 하나의 수치는 83.6%의 MCP Atlas 점수입니다. MCP Atlas는 모델이 잘못된 형식(malformed)이나 순서가 어긋난 호출(out-of-order call)로 인해 멈추지 않고, 얼마나 안정적으로 다단계 도구 호출 (multi-step tool calls)을 체이닝(chaining)하는지를 측정합니다. MCP 비중이 높은 스택을 운영하는 누구에게나, 이 점수는 SWE-bench보다 작업 완료율 (task-completion rate)을 더 직접적으로 예측합니다. 현재 Flash의 점수는 Claude Opus 4.7보다 4.5포인트, GPT-5.5보다 8.3포인트 높습니다.

솔직한 이면을 말하자면: Gemini 3.5 Flash는 128k 토큰 검색 (retrieval) 측면에서 Gemini 3.1 Pro 대비 7.6포인트 하락했으며, 이전 Pro 티어 대비 ARC-AGI-2에서 5포인트 하락했습니다 (GPT-5.5와는 12.5포인트 차이). 만약 백만 토큰 규모의 컨텍스트 리팩토링 (context refactor)이 필요하거나, ARC 스타일의 추상적 추론 (abstract reasoning) 문제라면 Flash는 잘못된 선택입니다.

Gemini 3.5 Flash 가격 책정: 토큰당으로는 저렴하지만, 작업당으로는 비싸다

Gemini 3.5 Flash는 입력 토큰 100만 개당 $1.50, 출력 토큰 100만 개당 $9, 캐시된 입력 토큰 100만 개당 $0.15입니다 (OpenRouter에서 실시간 가격 확인 가능). 겉보기에는 Flash 티어가 저렴해 보입니다. 하지만 작업(task)당 비용을 따지면 그렇지 않습니다.

Simon Willison의 2026년 5월 19일 분석은 Artificial Analysis 벤치마크 스위트 (benchmark-suite) 비용을 인용합니다: 전체 평가를 실행할 때 Gemini 3.1 Pro에서는 $892.28이 들었으나, Gemini 3.5 Flash에서는 $1,551.60이 들었습니다. 토큰당으로는 더 저렴하지만, 워크로드 (workload)당으로는 더 비쌉니다. 이는 사고 토큰 (thinking tokens)이 턴 (turn)과 에이전트 루프 (agent loops) 전반에 걸쳐 지속되며, 에이전트가 더 많은 출력 토큰을 소모하기 때문입니다. NxCode 또한 유사한 배수를 보고했습니다: 동일한 평가 작업 시 gemini-3-flash 대비 약 9배의 비용이 발생합니다 ($1,552 대 $278).

라우팅 (routing)에 있어 중요한 가격 비교는 다음과 같습니다:

모델	입력 ($/1M)	출력 ($/1M)	캐시된 입력 ($/1M)
Gemini 3.5 Flash	$1.50	$9.00	$0.15
...

다음 섹션으로 넘어가기 전에 주의해야 할 함정이 하나 있습니다. GitHub Copilot은 Gemini 3.5 Flash를 출시하면서 14배의 프리미엄 요청 배수(premium-request multiplier)를 적용했습니다 (GitHub Changelog, 2026년 5월 19일). 이에 따라 Copilot Pro의 300회 요청 할당량은 초과 요금이 발생하기 전까지 약 21회의 Flash 호출로 줄어듭니다. 만약 이미 Claude Code와 OpenRouter 또는 AI Studio API 키를 보유하고 있다면, 호출당 약 $0.015인 Flash를 직접 호출하는 것이 Copilot 할당량을 소진하는 것보다 거의 항상 더 저렴합니다.

복사해서 붙여넣은 코드를 망가뜨리는 thinking_level 기본값 함정

Google은 정수형 thinking_budget 파라미터를 문자열 열거형(string enum)인 thinking_level로 교체하였으며, 기본값을 high에서 medium으로 조용히 변경했습니다. gemini-3-flash-preview에서 복사하여 붙여넣은 코드는 여전히 작동하지만, 새로운 필드를 설정하지 않으면 눈에 띄게 저하된 결과물을 생성합니다. 공식 노트는 Google AI Developers - What's new in Gemini 3.5에서 확인할 수 있습니다.

네 가지 값은 minimal, low, medium (새로운 기본값), 그리고 high입니다. Google은 코딩 및 도구 호출(tool-calling) 워크로드에 특화하여 low를 반환하도록 조정했습니다. MCP 도구를 사용하는 에이전트 루프(agent loops)의 경우, thinking_level: "low"가 더 빠르고 저렴하며, 코딩 벤치마크상으로는 medium과 거의 대등한 성능을 보여줍니다. 어려운 추론(hard reasoning)이 필요한 경우에는 high로 설정하십시오.

변경 전후 차이 (Before and after diff)

# 변경 전 - gemini-3-flash-preview
from google import genai
from google.genai import types
...

# 변경 후 - gemini-3.5-flash, 에이전트 루프를 위해 명시적이고 튜닝됨
from google import genai
from google.genai import types
...

마이그레이션 과정에서 주의해야 할 두 가지 정리 사항이 있습니다. 새로운 SDK 프로필에서는 temperature, top_p, top_k가 더 이상 권장되는 제어 매개변수가 아닙니다. 설정에 이를 남겨둔다고 해서 오류가 발생하는 것은 아니지만, 조용히 무시됩니다. 다음에 코드를 읽는 사람이 이 설정들이 여전히 작동한다고 오해하지 않도록 삭제하십시오. 그리고 첫 실행 시 response.usage_metadata를 점검하십시오. 이제 사고 토큰 (thinking tokens)이 멀티턴 대화 (multi-turn conversations) 전반에 걸쳐 유지되며, 에이전트 루프 (agent loop)의 작업당 토큰 수는 프리뷰 모델 대비 30~50%까지 증가할 수 있습니다.

코딩을 위한 Gemini 3.5 Flash vs Claude Code (Sonnet 4.6, Opus 4.7)

요약하자면: Flash는 에이전트 오케스트레이션 (agent orchestration)과 MCP 도구 체인 (MCP tool chains)에서 승리합니다. Claude Code는 리포지토리 레벨의 편집 (repo-level edits)과 방어적 코드 생성 (defensive code generation)에서 승리합니다. 모델에 대한 충성도가 아닌, 작업에 따라 선택하십시오.

작업 유형	최적의 모델	이유
MCP 도구 오케스트레이션, 병렬 함수 호출 (parallel function calling)	Gemini 3.5 Flash	83.6% MCP Atlas, ~289 tok/sec, $1.50 입력
...	...	...

방어적 코드에 대한 관찰은 막연한 추측이 아닙니다. 이번 달 진행된 여러 차례의 헤드 투 헤드 (head-to-head) 리뷰가 동일한 패턴으로 수렴하고 있습니다. MindStudio와 BuildFastWithAI 모두 Claude Opus 4.7이 엣지 케이스 (edge cases)를 예측하고 에러 핸들링 (error handling)을 더 자연스럽게 추가하는 반면, Gemini 3.5 Flash는 때때로 방어적 패턴을 건너뛰는 더 간결한 코드를 생성한다고 보고했습니다. 이는 저의 개인적인 경험과도 일치합니다. 저는 Sonnet 4.6이 프로덕션 패치 (production patches)를 작성하는 것을 신뢰하며, 입력을 가져오는 30개의 도구 호출 (tool calls)을 조정하는 데는 Flash에 의존합니다.

Claude Code에서 Gemini 3.5 Flash로 작업을 라우팅(route)해야 할 때

저의 기본 설정은 다음과 같습니다: 리포지토리에 손을 대는 모든 작업에 대해서는 Sonnet 4.6을 탑재한 Claude Code를 에디터 (editor)로 유지합니다. Edit, Write, Glob, Grep 도구들은 그대로 유지됩니다. 이것이 프로덕션 경로이며, 현재로서는 다른 모델이 필요하지 않습니다.

제가 Gemini 3.5 Flash로 라우팅하는 부분은 에디터를 보조하는 주변 작업들입니다:

MCP 중심의 계획 수립 하위 작업 (MCP-heavy planning subtasks): 에이전트가 API를 조회하거나, 데이터베이스에 접속하거나, 다른 에이전트와 협업하기 위해 10개에서 100개의 도구 호출 (tool calls)을 확장(fan out)하는 경우입니다. 83.6%의 MCP Atlas 점수는 이 지점에서 재시도(retries) 횟수 감소와 도구 호출 중단(stalled tool calls) 감소로 나타납니다.
장시간 실행되는 백그라운드 작업 (Long-running background tasks): 방어적인 깊이보다 속도가 중요한 작업들입니다. 린팅 요약 (linting summaries), 로그 분류 (log triage), 문서 생성 (doc generation), 예약된 크론(cron) 스타일의 에이전트 등이 이에 해당합니다. Flash의 약 289 tok/sec 출력 처리량 (output throughput)은 Opus 4.7이 제공하는 성능의 약 4배에 달합니다.
저렴한 중간 계획 단계 (Cheap intermediate planning steps): Sonnet 4.6을 사용하기에는 과한(overkill) 더 큰 에이전트 루프 내부의 단계들입니다. Flash를 사용하여 다음에 호출할 도구를 선택하게 한 다음, 실제 코드 변경은 Sonnet에게 제어권을 넘겨 처리하도록 합니다.
병렬 하위 에이전트 확장 (Parallel sub-agent fan-out): NxCode 개발자 가이드에 설명된 Antigravity 데모의 93개 병렬 에이전트와 같은 사례입니다. 100만 토큰당 0.15달러인 캐시된 입력 가격 (Cached input pricing) 덕분에 이러한 확장이 경제적으로 실행 가능해집니다.

제가 실제로 라우팅하는 세 가지 방법

라우팅 프록시로서의 OpenRouter 사용: Claude Code 또는 모든 Claude SDK 호출을 구성하여 특정 도구 호출을 OpenRouter의 google/gemini-3.5-flash로 전달하도록 합니다. 이렇게 하면 하나의 API 키와 하나의 결제 수단만 유지하면서, 코드 변경 없이 모델을 교체할 수 있습니다.
얇은 커스텀 MCP 서버: gemini-3.5-flash를 노출된 도구로 사용하여 client.models.generate_content를 래핑(wrap)하는 얇은 커스텀 MCP 서버를 만든 다음, ~/.claude.json을 통해 Claude Code 내부에 마운트합니다.
하이브리드 팀을 위한 Antigravity CLI: 팀이 이미 Gemini CLI에서 agy로 마이그레이션했다면, Flash가 기본 모델입니다. 병렬 에이전트에는 Antigravity를 사용하고, 주요 에디터로는 Claude Code를 유지하세요.

Python 40줄로 Gemini 3.5 Flash를 이용한 MCP 에이전트 구축하기

Google GenAI SDK는 네이티브 MCP 지원을 제공합니다. SDK에 연결된 MCP ClientSession을 전달하면, 에이전트가 작업을 마칠 때까지 도구 호출 (tool calls)을 자동으로 실행하고 그 응답을 모델에 루프로 다시 전달합니다. 공식 레퍼런스는 Google AI Developers - Function calling에서 확인할 수 있습니다.

SDK 설치

pip install "google-genai>=2.0" "mcp>=1.4"
export GEMINI_API_KEY="your-key-from-aistudio"

작동하는 에이전트 예시

아래 스크립트는 MCP 서버에 연결하고, thinking_level="low" 설정과 함께 Gemini 3.5 Flash에 세션을 전달하며, 실제 분류 (triage) 프롬프트를 실행합니다. your_mcp_server를 이미 실행 중인 MCP 서버의 모듈 경로로 교체하세요.

import asyncio
from google import genai
from google.genai import types
...

모든 선택의 이유

thinking_level="low": Google은 코드 작성 및 도구 호출 (tool-calling)에 대해 low를 권장했습니다. 이는 더 빠르고 저렴하며, 코딩 벤치마크 성능은 medium과 유사합니다. 기본값인 medium은 도구 호출 시퀀스를 개선하지 않으면서 비용만 조용히 상승시킬 수 있습니다.
tools=[session]: SDK는 MCP ClientSession을 직접 수용합니다. SDK는 서버의 도구 목록을 조사하고, 모델이 요청할 때 각 도구를 호출하며, ID와 이름으로 FunctionResponse를 매칭하고, 모델이 도구 호출을 중단할 때까지 루프를 계속합니다.
response.usage_metadata: 매 실행 시 이를 로그로 남기세요. ThoughtsTokenCount를 점검해야 합니다. 사고 토큰 (Thinking tokens)은 턴 (turn) 사이에도 유지되며, 긴 에이전트 루프에서는 입력 비용을 30~50%까지 상승시킬 수 있습니다.
temperature 및 top_p 미사용: Gemini 3.5에서는 이 파라미터들이 조용히 무시됩니다. 설정에 이를 남겨두면 다음에 코드를 읽는 사람을 혼란스럽게 만들 수 있습니다.

Antigravity, GitHub Copilot, 그리고 raw API에서의 Gemini 3.5 Flash

Flash는 네 가지 유의미한 인터페이스를 통해 제공됩니다. 어떤 것을 사용할지는 귀하가 이미 무엇에 비용을 지불하고 있는지, 그리고 어떻게 구축하는지에 따라 달라집니다.