본문으로 건너뛰기

© 2026 Molayo

Dev.to헤드라인2026. 05. 28. 02:34

Google의 Gemini 3.5 Flash는 다른 프론티어 모델보다 4배 빠릅니다. TypeScript에서 호출하는 방법은 다음과 같습니다.

요약

Google의 Gemini 3.5 Flash 모델의 특징과 TypeScript 환경에서의 구현 방법을 소개합니다. 이 모델은 기존 프론티어 모델 대비 4배 빠른 출력 속도를 제공하여 지연 시간에 민감한 에이전틱 작업에 최적화되어 있습니다.

핵심 포인트

  • Gemini 3.5 Flash는 타 모델 대비 4배 빠른 출력 속도 제공
  • 에이전틱 루프 및 실시간 채팅 등 저지연 작업에 최적화
  • TypeScript 환경에서 @google/genai SDK를 통한 호출 가능
  • 작업 성격에 따라 3.5 Flash와 2.5 Flash 중 선택 권장

Google의 Gemini 3.5 Flash는 다른 프론티어 모델보다 4배 빠릅니다. TypeScript에서 호출하는 방법은 다음과 같습니다.

Google은 Google I/O 2026에서 5월 19일에 Gemini 3.5 Flash를 출시했습니다. 주요 주장은 다른 프론티어 (Frontier) 모델에 비해 초당 출력 토큰 (Output tokens)이 4배 더 빠르다는 것입니다. 이것은 단순한 마케팅 등급 레이블이 아닙니다. 이 주장은 처리량 (Throughput) 수치이며, 스트리밍 채팅 (Streaming chat), 코드 생성 (Code generation) 또는 에이전틱 루프 (Agentic loops)와 같이 지연 시간 (Latency)에 민감한 작업의 경우, 무엇을 선택할지에 대한 기준을 바꿉니다.

이 모델이 실제로 무엇인지, TypeScript에서 어떻게 연결하는지, 그리고 프로덕션 (Production) 환경에서 의존하기 전에 비용 및 속도 제한 (Rate limit) 상황이 어떠한지 설명하겠습니다.

TL;DR

차원 (Dimension)Gemini 3.5 FlashGemini 2.5 Flash
출력 속도 (Output speed)다른 프론티어 모델보다 4배 빠름대량 작업에 최적화된 가성비
...

1. Gemini 3.5 Flash란 무엇이며 어디에 적합한가

Google은 Gemini 3.5 Flash를 3.5 제품군 내의 빠른 계층 (Fast tier)으로 포지셔닝합니다. 발표에서의 프레이밍은 "실행력을 갖춘 프론티어 지능 (Frontier intelligence with action)"인데, 이는 다음과 같은 말을 장황하게 표현한 것입니다: 이 모델은 지연 시간 (Latency)이 더 이상 병목 현상 (Bottleneck)이 되지 않는 속도로 복잡한 에이전틱 (Agentic) 작업을 수행합니다.

Google이 발표한 벤치마크 (Benchmarks)가 이를 뒷받침합니다. Terminal-Bench 2.1에서 3.5 Flash는 76.2%를 기록했습니다. MCP Atlas에서는 83.6%에 도달했습니다. 멀티모달 (Multimodal) 벤치마크인 CharXiv Reasoning에서는 84.2%에 도달했습니다. Google은 일반적인 채팅이 아닌 에이전틱 (Agentic) 및 코딩 워크로드 (Workloads)를 위해 이 점수들을 발표했습니다.

다른 라인업과 비교하면 어디에 위치할까요? 2.5 Flash는 토큰당 비용이 더 저렴하며, 원시 처리량 (Raw throughput)보다 호출당 비용이 더 중요한 대량 추론 (Reasoning) 작업에 설계되었습니다. 3.5 Flash는 비용이 더 높지만 출력을 충분히 빠르게 제공하여 에이전틱 루프 (Agentic loop)의 실제 소요 시간 (Wall-clock time)을 단축시키며, 이는 토큰당 단가가 더 높더라도 작업당 비용을 낮출 수 있습니다. Google의 자체적인 프레이밍은 개별 호출이 아닌 전체 작업 기준으로 "종종 다른 프론티어 모델 비용의 절반 미만"이라고 설명합니다.

대부분의 TypeScript 프로젝트에서 결정 기준은 다음과 같습니다: 사용자가 출력을 기다리는가, 아니면 파이프라인 (pipeline)이 이를 소비하는가? 만약 사용자가 커서를 바라보며 기다리고 있다면 속도가 중요하며, 3.5 Flash는 프리미엄 비용을 지불할 가치가 있습니다. 만약 백그라운드 작업 (background job)이 대규모로 문서를 처리하고 있다면, 2.5 Flash가 적절한 선택일 가능성이 높습니다.

2. SDK 설치 및 첫 번째 호출 수행

SDK는 @google/genai입니다. Node.js 18 이상 버전이 필요합니다.

npm install @google/genai

Google AI Studio에서 API 키를 설정하세요:

export GEMINI_API_KEY="your-key-here"

기본 호출:

import { GoogleGenAI } from "@google/genai";

const ai = new GoogleGenAI({ apiKey: process.env.GEMINI_API_KEY });
...

이것이 원샷 요청 (one-shot request)을 위한 전체 인터페이스입니다. GoogleGenAI 생성자는 키를 직접 전달받거나, 빈 객체 {}와 함께 호출될 때 환경 변수에서 GEMINI_API_KEY를 읽어옵니다. 호출 지점에서 의도가 명확하도록 명시적인 키 참조를 사용하는 것을 권장합니다.

참고할 사항: response.text는 편의를 위한 접근자 (accessor)입니다. 전체 응답 트리 (response tree)는 response.candidates[0].content.parts에 위치합니다. 멀티모달 (multi-modal) 출력이나 함수 호출 (function call) 응답을 처리할 때만 그 정도로 깊게 접근할 필요가 있습니다.

3. 스트리밍 응답 (Streaming responses)

4배 빠른 출력 속도는 스트리밍 (streaming)을 할 때 가장 중요합니다. 차단 방식 (blocking)의 generateContent 호출은 모델이 완료될 때까지 연결을 열어둔 채 유지합니다. 높은 처리량 (throughput)에서 1,000 토큰 응답을 받는 경우, 이는 사용자에게 여전히 인지 가능한 대기 시간을 유발합니다. 스트리밍은 모델이 생성하는 대로 각 청크 (chunk)를 클라이언트로 전달합니다.

import { GoogleGenAI } from "@google/genai";

const ai = new GoogleGenAI({ apiKey: process.env.GEMINI_API_KEY });
...

Next.js API 라우트나 Express 서버에서는 chunk.textReadableStream으로 파이프 (pipe)하고 Content-Type: text/event-stream을 설정하면 됩니다. 패턴은 동일합니다: 비동기 제너레이터 (async generator)를 반복하며 각 청크를 전달합니다.

// pages/api/generate.ts (Next.js App Router 예시)
import { NextRequest } from "next/server";
import { GoogleGenAI } from "@google/genai";
...

4배의 처리량 (throughput) 주장은 첫 번째 청크와 마지막 청크 사이의 시간에서 나타납니다. 높은 출력 속도 덕분에 전체 토큰 (token) 수가 많더라도 사용자 측면에서는 스트림 (stream)이 매우 빠르고 경쾌하게 느껴집니다.

4. TypeScript에서의 도구 호출 (Tool calling)

Gemini 3.5 Flash는 세 단계의 사이클로 함수 호출 (function calling)을 처리합니다: 도구를 선언하고, 모델이 함수 호출 요청을 반환하면, 이를 실행한 뒤 결과를 다시 보냅니다.

코드를 작성하기 전에 알아두어야 할 한 가지는, Gemini 3 모델 API는 모든 함수 호출에 고유한 id를 부여한다는 점입니다. 함수 응답 시 반드시 해당 id를 그대로 다시 전달(echo)해야 하며, 그렇지 않으면 모델이 결과와 호출을 매칭할 수 없습니다. 이는 3.x API 라인에서 변경된 사항입니다.

import { GoogleGenAI, Type } from "@google/genai";

const ai = new GoogleGenAI({ apiKey: process.env.GEMINI_API_KEY! });
...

두 가지 실무적인 참고 사항이 있습니다. @google/genai에서 가져온 Type 열거형 (enum)은 파라미터 스키마 (parameter schema)를 위해 필수적입니다. 타입 필드에 `

입력당 $0.30 / 출력당 $2.50인 2.5 Flash의 가격은 대규모 운영 시 의미 있는 차이를 만듭니다. 10,000개의 출력 토큰 (output tokens)을 생성하는 작업의 경우, 2.5 Flash에서는 $0.025가 들지만 3.5 Flash에서는 $0.09가 듭니다. 이는 호출당 3.6배 더 비싼 비용입니다. 만약 4배의 속도 우위 덕분에 3.5 Flash가 멀티턴 에이전트 작업 (multi-turn agentic task)을 더 적은 실제 시간 (wall-clock seconds) 내에 완료하고, 모델이 더 빠르게 목적지에 도달함에 따라 작업 자체에 필요한 총 토큰 수가 줄어든다면 이 격차는 좁혀질 수 있습니다. 단일 호출 가격을 통해 추정하기보다는 실제 워크로드 (workload)를 대상으로 테스트하십시오.

두 모델 모두 Gemini API를 통해 무료 티어 (free tier)를 제공하며, Google은 가격 페이지에 정확한 속도 제한 (rate limits)을 공개하지 않습니다. 유료 티어 (paid tier)를 사용하면 일일 제한이 제거됩니다. 프로토타이핑 (prototyping) 단계라면 무료 티어로 충분합니다. 프로덕션 트래픽 (production traffic)을 운영 중이라면 유료 프로젝트를 사용하고 Google Cloud 콘솔에서 월간 지출 한도를 설정하십시오.

알아두어야 할 중요한 제약 사항이 하나 있습니다: Google Search grounding 요청은 무료 티어의 모든 Gemini 3 모델에 대해 월간 5,000개의 프롬프트 (prompt) 쿼터 (quota)를 공유하며, 유료 티어에서는 1,000개 쿼리당 $14가 부과됩니다. 만약 사용자의 도구 호출 (tool-calling) 설정이 Search grounding을 통해 라우팅된다면, 해당 쿼터는 예상보다 빠르게 소진될 것입니다.

6. 결론

Gemini 3.5 Flash는 모델 비교 목록에 추가할 가치가 있습니다. Google 자체 벤치마크 (benchmarks)가 4배의 출력 속도 주장을 뒷받침하며, 수치 또한 에이전트 중심 워크로드 (agentic workload)에 초점을 맞춘 방향과 일치합니다. TypeScript SDK는 직관적입니다. 함수 호출 (function calling) API에는 이전 Gemini 버전과 비교하여 한 가지 새로운 규칙이 있습니다: 함수 응답 (function response) 시 항상 id 필드를 다시 에코 (echo)해야 합니다.

2.5 Flash 대비 가격 프리미엄은 실재합니다. 이것이 비용 대비 효과가 있을지는 사용자가 출력을 기다리는지 여부, 그리고 에이전트 루프 (agentic loops)가 토큰당 비용 차이를 상쇄할 만큼 실제 시간 (wall-clock time)을 충분히 단축하는지에 달려 있습니다. 어느 모델을 프로덕션에 적용할지 결정하기 전에 실제 작업 형태에 맞춰 두 모델을 모두 실행해 보십시오.

어떤 종류의 워크로드에 Gemini 3.5 Flash를 고려하고 계신가요? 특히 다른 프론티어 모델 (frontier models)과 지연 시간 (latency) 비교를 수행하셨다면 댓글을 남겨주세요.

GDS K S · thegdsks.com · X에서 팔로우 @thegdsks

속도는 어차피 실제 소요 시간 (wall-clock time)에 비용을 지불했을 경우에만 공짜입니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 Dev.to AI tag의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0