대규모 워크로드에 최적화된 AI, Gemini 3.1 Flash-Lite 출시

🚀 대규모 워크로드에 최적화된 AI, Gemini 3.1 Flash-Lite 출시

Google이 가장 빠르고 비용 효율적인 Gemini 3 시리즈 모델인 Gemini 3.1 Flash-Lite를 발표했습니다. 이 모델은 높은 볼륨의 개발자 작업 부하(workloads)에 맞춰 설계되었으며, 뛰어난 품질을 유지하면서도 가격 경쟁력을 극대화한 것이 특징입니다.

현재 Google AI Studio와 Vertex AI를 통해 개발자와 기업 모두에게 프리뷰로 제공되고 있습니다. 특히 비용 효율성이 뛰어나 입력 토큰당 $0.25, 출력 토큰당 $1.50이라는 합리적인 가격으로 이용 가능합니다.

⚡ 압도적인 속도와 성능 향상

3.1 Flash-Lite는 기존 모델인 2.5 Flash 대비 월등한 속도를 자랑합니다. 분석 결과에 따르면, 응답 첫 토큰까지 걸리는 시간(Time to First Answer Token)이 2.5배 빠르고 출력 속도는 45% 증가했습니다. 이러한 낮은 지연 시간(low latency)은 실시간 상호작용이 필수적인 고빈도 워크플로우를 구축하는 데 이상적입니다.

또한, 이 모델은 Arena.ai 리더보드에서 1432점의 높은 Elo 점수를 기록하며, 추론 및 멀티모달 이해 등 다양한 벤치마크에서 이전 세대보다 우수한 성능을 입증했습니다.

✨ 개발자를 위한 적응형 지능 제어 기능

단순한 성능 외에도, Gemini 3.1 Flash-Lite는 AI Studio와 Vertex AI에 '사고 수준(thinking levels)'이라는 기능을 기본 제공합니다. 이를 통해 개발자는 작업의 복잡도에 따라 모델이 얼마나 깊게 생각할지 직접 조절하여 높은 빈도의 워크로드에서도 비용과 성능을 최적화할 수 있습니다.

이러한 유연성 덕분에 대용량 번역, 콘텐츠 검열 같은 단순 반복 작업부터 사용자 인터페이스(UI) 생성이나 복잡한 시뮬레이션까지 광범위한 작업을 안정적으로 처리할 수 있습니다. 초기 테스트를 진행한 기업들 역시 이 모델의 효율성과 정밀한 추론 능력을 높이 평가했습니다.

Insights

대규모 워크로드에 최적화된 AI, Gemini 3.1 Flash-Lite 출시

요약

핵심 포인트