본문으로 건너뛰기

© 2026 Molayo

Zenn헤드라인2026. 05. 20. 22:42

「빠를 것인가, 똑똑할 것인가」를 선택하지 않아도 되는 날이 왔다 —— Gemini 3.5 Flash

요약

Gemini 3.5 Flash는 기존의 '속도는 빠르지만 지능은 낮다'는 모델 설계의 전제를 깨뜨리는 성능을 보여줍니다. 에이전트 및 코딩 벤치마크에서 Pro 모델을 상회하는 지능을 보여주면서도, 매우 빠른 출력 속도와 합리적인 비용을 동시에 제공합니다.

핵심 포인트

  • Gemini 3.5 Flash는 에이전트(MCP Atlas 83.6%) 및 코딩(Terminal-Bench 2.1 76.2%) 지표에서 Pro 모델을 능가하는 성능을 기록함
  • 초당 약 300토큰의 압도적인 출력 속도를 제공하여 사용자 대기 시간을 최소화함
  • 플래그십 모델 대비 경쟁력 있는 API 가격 정책을 유지함
  • 모델 선택에 따른 워크플로우 분절(Segmentation) 없이 단일 모델로 효율적인 작업 설계가 가능해짐

AI 모델을 선택할 때, 줄곧 그러한 전제가 있었다.

속도를 취하면 똑똑함이 떨어진다. 똑똑함을 취하면 느려지고, 비싸진다. 그래서 용도에 맞춰 모델을 구분해서 사용하는 것이 「정답」이었고, 그것이 당연한 것으로 정착되어 있었다.

Gemini 3.5 Flash를 사용해 보고 솔직히 말하자면——그 전제가 무너지기 시작하고 있다는 감각이 남았다.

이것이 통할 줄은 몰랐다

5월 19일 Google I/O 2026에서 발표된 Gemini 3.5 Flash는, Flash 계열 모델로서는 이례적인 위치에 있다.

Flash라는 것은 지금까지 Google의 AI 라인업에서 「고속·저비용·적당히 똑똑함」의 영역이었다. 빠르지만, 복잡한 추론은 Pro에는 미치지 못한다. 그런 것으로 사용해 왔다.

그런데 이번에 Google DeepMind의 발표에 따르면, 에이전트 태스크(Agent Task)와 코딩(Coding) 벤치마크(Benchmark) 여러 항목에서 Gemini 3.1 Pro를 상회하는 결과가 나오고 있다. MCP Atlas라는 에이전트 계열 지표에서는 83.6%, Terminal-Bench 2.1이라는 코딩 지표에서는 76.2%를 기록했다.

「Flash」가 「Pro」를 앞선다는 것은, 숫자만 보면 조금 위화감이 든다. 하지만 이것이 실제로 일어나고 있는 일인 듯하다.

속도에 대해서도 말해두자

출력 속도는 약 300토큰/초(token/s). Artificial Analysis의 측정에 따르면, Claude Opus 4.7의 최대 사고 모드와 비교했을 때 약 4.3배 빠르다는 수치가 나왔다.

4배 빠르다는 것이 체감상 어떤 의미냐면——「답변이 돌아오는 동안 다른 일을 하자」라고 생각하지 않게 될 정도의 템포라고 생각한다. 기다리는 행위 자체가 사라진다고 할까.

이것이 비용 측면에서도 억제되어 있다는 점이 개인적으로는 의외였다. API 가격은 입력 100만 토큰당 1.5달러, 출력 9달러로, 동세대 플래그십(Flagship) 모델과 비교하면 상당히 현실적인 수치가 되어 있다.

「빠르고 똑똑함」은 무엇을 바꾸는가

하지만, 여기서부터가 본론이다——

속도와 똑똑함이 양립했을 때, 실제로 변하는 것은 「사용법의 설계」라고 생각한다.

지금까지는 정밀도가 필요한 작업은 Pro를 사용하고, 초안을 빠르게 뽑고 싶을 때는 Flash를 사용하는 식의 구분(Segmentation)이 있었다. 즉, 작업의 성질에 따라 모델을 전환하는 번거로움이 있었다.

그것이 「일단 이것 하나면 충분해」가 되면, 워크플로우(Workflow) 전체가 바뀐다. 선택하는 판단 비용이 제로(0)가 된다. 그 심플함은 숫자로 된 벤치마크에는 나타나지 않는 부분이라고 생각한다.

신경 쓰이는 점도 적는다

공정하게 말하자면, 깊은 추론이나 장문의 전략 수립에서는 아직 Claude Opus 4.7과 같은 전문 특화 모델이 강하다는 평가도 있다. 리더보드(Leaderboard) 비교에서의 순위는 현시점에서 9위권 내로, 모든 면에서 톱(Top)인 것은 아니다.

사고 레벨 설정(minimal / low / medium / high)에 따라 속도와 정밀도의 트레이드오프(Trade-off)가 달라지기 때문에, 최적의 사용법은 아직 탐색 중이기도 하다.

「이것으로 전부 해결」이 아니라, 「어떤 종류의 사용법에 있어서는, 이제 선택할 필요가 없다」는 느낌에 가깝다.

이상.

벤치마크를 좋아하는 사람에게는 공식 모델 카드(Model Card)가 자세히 나와 있다. 실제로 사용해 보고 싶다면 Google AI Studio에서 오늘부터 사용할 수 있다.

나는 「속도냐 똑똑함이냐」를 선택하는 것이 당연하다고 생각했다. 그것이 흔들리는 감각이 지금도 여전히 조금 남아 있다.

이것이 최선인지는 솔직히 모르겠지만——하지만 전제가 바뀌었다는 것은 확실하다고 생각한다.

다시 검증하면 추기하겠습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 Zenn AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0