본문으로 건너뛰기

© 2026 Molayo

DeepMind중요헤드라인2026. 04. 23. 22:45

대규모 워크로드에 최적화된 AI, Gemini 3.1 Flash-Lite 출시

요약

Google이 대용량 워크로드에 특화된 새로운 AI 모델, Gemini 3.1 Flash-Lite를 공개했습니다. 이 모델은 Google AI Studio와 Vertex AI를 통해 개발자 및 기업에게 프리뷰로 제공됩니다. 가장 큰 장점은 뛰어난 비용 효율성과 속도입니다. 입력 토큰당 $0.25, 출력 토큰당 $1.50의 저렴한 가격으로 2.5 Flash보다 훨씬 빠르며, 응답 시간(Time to First Answer Token)이 2.5배 더 빠르고 출력 속도는 45% 향상되었습니다. 또한, Gemini 3.1 Flash-Lte

핵심 포인트

  • Gemini 3.1 Flash-Lite는 대규모 개발 워크로드에 최적화된 가장 빠르고 비용 효율적인 모델입니다.
  • 2.5 Flash 대비 응답 속도가 2.5배 빠르며, 출력 속도는 45% 향상되어 실시간 경험 구축에 이상적입니다.
  • 입력 토큰당 $0.25, 출력 토큰당 $1.50의 저렴한 가격으로 높은 성능을 제공합니다.
  • 단순 번역/콘텐츠 검열부터 사용자 인터페이스(UI) 생성 및 시뮬레이션까지 다양한 복잡한 작업을 처리할 수 있습니다.

🚀 대규모 워크로드에 최적화된 AI, Gemini 3.1 Flash-Lite 출시

Google이 가장 빠르고 비용 효율적인 Gemini 3 시리즈 모델인 Gemini 3.1 Flash-Lite를 발표했습니다. 이 모델은 높은 볼륨의 개발자 작업 부하(workloads)에 맞춰 설계되었으며, 뛰어난 품질을 유지하면서도 가격 경쟁력을 극대화한 것이 특징입니다.

현재 Google AI Studio와 Vertex AI를 통해 개발자와 기업 모두에게 프리뷰로 제공되고 있습니다. 특히 비용 효율성이 뛰어나 입력 토큰당 $0.25, 출력 토큰당 $1.50이라는 합리적인 가격으로 이용 가능합니다.

⚡ 압도적인 속도와 성능 향상

3.1 Flash-Lite는 기존 모델인 2.5 Flash 대비 월등한 속도를 자랑합니다. 분석 결과에 따르면, 응답 첫 토큰까지 걸리는 시간(Time to First Answer Token)이 2.5배 빠르고 출력 속도는 45% 증가했습니다. 이러한 낮은 지연 시간(low latency)은 실시간 상호작용이 필수적인 고빈도 워크플로우를 구축하는 데 이상적입니다.

또한, 이 모델은 Arena.ai 리더보드에서 1432점의 높은 Elo 점수를 기록하며, 추론 및 멀티모달 이해 등 다양한 벤치마크에서 이전 세대보다 우수한 성능을 입증했습니다.

✨ 개발자를 위한 적응형 지능 제어 기능

단순한 성능 외에도, Gemini 3.1 Flash-Lite는 AI Studio와 Vertex AI에 '사고 수준(thinking levels)'이라는 기능을 기본 제공합니다. 이를 통해 개발자는 작업의 복잡도에 따라 모델이 얼마나 깊게 생각할지 직접 조절하여 높은 빈도의 워크로드에서도 비용과 성능을 최적화할 수 있습니다.

이러한 유연성 덕분에 대용량 번역, 콘텐츠 검열 같은 단순 반복 작업부터 사용자 인터페이스(UI) 생성이나 복잡한 시뮬레이션까지 광범위한 작업을 안정적으로 처리할 수 있습니다. 초기 테스트를 진행한 기업들 역시 이 모델의 효율성과 정밀한 추론 능력을 높이 평가했습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 Google DeepMind의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
3

댓글

0