Gemini 3.5 Flash, 코딩 및 에이전트 분야에서 3.1 Pro를 앞서다
요약
Gemini 3.5 Flash가 코딩 및 에이전트 작업 벤치마크에서 Gemini 3.1 Pro를 능가하는 성능을 기록했습니다. 특히 도구 호출(tool-calling)과 장기적 에이전트 작업에서 탁월한 효율성과 속도를 보여줍니다.
핵심 포인트
- Terminal-Bench 2.1에서 Flash(76.2%)가 Pro(70.3%)를 앞섬
- 도구 호출 및 에이전트 작업에서 높은 정확도와 비용 효율성 제공
- 금융 에이전트 및 MCP 서버 도구 호출 성능 우수
- 기존 Pro 모델 대비 약 40% 저렴한 비용과 빠른 생성 속도
Gemini 3.5 Flash는 Terminal-Bench 2.1에서 76.2%를 기록했습니다. Google의 자체 라인업에서 그 상위 단계인 Gemini 3.1 Pro는 70.3%를 기록했습니다. Google은 5월 19일 I/O 2026에서 Flash를 출시했습니다. 비용은 입력 토큰 100만 개당 2.50달러, 출력 토큰 100만 개당 15달러로, 양쪽 모두 3.1 Pro보다 40% 저렴하며, Google은 이 모델이 유사한 프런티어 모델(frontier models)보다 약 4배 빠른 속도로 출력 토큰을 생성한다고 보고합니다. 대부분의 사람들이 보게 될 헤드라인은 "Flash가 Pro를 이겼다"일 것입니다. 하지만 더 유용한 정보는 Flash가 Pro를 어디에서 이기고, 어디에서 이기지 못하는지를 아는 것입니다. Google 라인업에 처음 접하는 분들을 위한 빠른 안내를 드리자면, Flash는 속도/비용 계층이고, Pro는 그 위에 있으며, Ultra는 Pro 위에 위치합니다. 지난주까지의 규칙은 간단했습니다. 저렴하고 빠르며 "충분히 괜찮은" 작업을 위해서는 Flash를 선택하고, 작업에 실제 지능이 필요할 때 Pro로 격상하는 것이었습니다. 3.5 버전의 출시는 특정 종류의 작업에 대해 그 규칙을 모호하게 만듭니다.
Flash 계층이 현재 앞서 나가는 부분
승리는 코딩(coding) 및 에이전트(agentic) 작업, 즉 LLM이 도구 루프(tool loop)에 연결된 것과 가장 유사한 작업들에 집중되어 있습니다. Terminal-Bench 2.1은 터미널을 구동하는 에이전트를 위한 벤치마크로, 파일 열기, 셸 명령(shell commands) 실행, 실제 코드베이스 디버깅 등을 포함합니다. Flash는 76.2%, Pro는 70.3%를 기록했습니다. 이는 "이 모델이 Cursor나 Aider 내부에서 유용한가"라는 질문에 가장 근접한 벤치마크에서 5.9포인트 차이로 앞선 결과입니다. MCP Atlas는 MCP 서버에 대한 도구 호출(tool-calling) 정확도를 측정하며, 모델이 올바른 도구를 선택하는지, 올바른 인자(arguments)를 채우는지, 그리고 오류로부터 복구할 수 있는지를 평가합니다. Flash는 83.6%, Pro는 78.2%를 기록했습니다. 이 항목에서도 Flash는 Claude Opus 4.7 및 GPT-5.5를 포함하여 Google이 보고한 다른 모든 모델보다 앞서 있습니다. Finance Agent v2는 모델이 여러 번의 호출을 통해 금융 질문을 처음부터 끝까지 조사해야 하는 장기적 관점의 에이전트 평가(long-horizon agent eval)입니다. Flash는 57.9%, Pro는 43.0%를 기록했습니다. 14.9포인트의 격차는 이 제품군 내에서 가장 큰 차이이며, 이 벤치마크는 많은 도구 호출(tool calls) 과정에서도 일관성을 유지하는 것에 보상을 줍니다. 이는 정확히 실제 운영 환경의 에이전트 스택(agent stacks)을 괴롭히는 실패 모드(failure mode)와 일치합니다.
Elo를 통해 에이전트 대항적 작업(agentic adversarial tasks)을 점수화하는 GDPval-AA에서 Flash는 1656점, Pro는 1314점을 기록했습니다. Flash는 또한 Google 자체 벤치마크인 Toolathlon (56.5%), CharXiv Reasoning (84.2%), 그리고 MMMU-Pro (83.6%)에서도 1위를 차지했습니다. OSWorld 데스크톱 에이전트 벤치마크(OSWorld desktop-agent benchmark)에서 Flash는 78.4%를 기록하며, GPT-5.5의 78.7% 및 Claude Opus 4.7의 78.0%와 오차 범위 내의 성능을 보여주었습니다. 이러한 패턴은 일관적입니다. 작업이 도구를 선택하고, 호출하고, 출력을 읽고, 다시 시도하는 과정을 포함할 때, 새로운 Flash 티어는 이전 Pro 티어보다 앞서 있으며 OpenAI 및 Anthropic의 현재 프런티어(frontier) 모델들과 경쟁할 수 있는 모델을 출시했습니다.
Pro가 여전히 우위를 점하는 두 가지 영역이 있습니다. 두 벤치마크는 결과가 반대로 나타났습니다. 이들은 에이전트 테스트가 아닌 지능의 한계(intelligence-ceiling) 테스트입니다. Humanity's Last Exam은 LLM이 학습하는 패턴에 저항하도록 설계된 전문가 수준의 질문 세트입니다. Pro는 44.4%, Flash는 40.2%를 기록하여 Pro가 4.2점 차이로 앞섰습니다. ARC-AGI-2는 대부분의 모델이 여전히 한 자릿수 점수를 기록하는 추상적 추론(abstract-reasoning) 벤치마크입니다. Pro는 77.1%, Flash는 72.1%를 기록했습니다. 여기서도 Pro가 5점 차이로 앞섰습니다. 이것들은 에이전트 벤치마크가 아닙니다. 이들은 "도구 없이 새로운 문제에 대해 모델이 깊이 생각할 수 있는가"를 측정하는 벤치마크입니다. 그리고 이러한 테스트에서 Flash의 속도 및 비용 트레이드오프(trade-off)는 여전히 대가를 치릅니다. 더 큰 모델인 Pro가 측정 가능한 우위를 유지하고 있습니다.
이것이 Google이 선택한 트레이드오프의 형태입니다. Flash는 '무에서 유를 생각하는 것(thinking from scratch)'이 아니라 '수행하는 것(doing)'에 더 능숙해졌습니다. 워크로드가 도구를 선택하고 오류로부터 회복하는 에이전트라면, 이제 Flash가 적절한 기본값(default)입니다. 만약 워크로드가 다른 것 없이 단 한 번의 시도로 이루어지는 새로운 추론(one-shot, novel reasoning)이라면, 여전히 Pro가 선호됩니다. 여기서 도출되는 결정 규칙은 구체적입니다. 코딩 에이전트(coding-agent) 또는 도구 호출(tool-calling) 작업을 Gemini 3.1 Pro를 통해 처리하는 모든 프로덕션 스택은 토큰당 비용을 40% 절감하고, 생성 속도를 약 4배 높이며, 에이전트 측면에서 측정 가능한 벤치마크 개선을 얻기 위해 Gemini 3.5 Flash로 전환할 수 있습니다. 반면 Humanity's Last Exam 스타일의 영역에 해당하는 원샷 추론(one-shot reasoning) 호출은 계속해서 Pro로 보내야 합니다.
3.5 버전 출시가 Pro 티어를 은퇴시키는 것은 아닙니다. 오히려 그 하한선을 높이는 것입니다. 출처: Gemini 3.5: frontier intelligence with action (Google blog, 2026년 5월 19일). 동일한 출시 포스트 및 llm-stats roundup의 벤치마크 수치.
AI 자동 생성 콘텐츠
본 콘텐츠는 Dev.to AI tag의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기