Gemini 3.5 Flash
요약
Gemini 3.5 Flash 출시와 함께 나타난 급격한 가격 인상과 모델의 성능적 한계를 분석합니다. 모델의 비용이 이전 세대 대비 크게 상승함에 따라, 특정 API 제공자에 종속되지 않는 추상화 계층의 필요성과 AI 서비스의 경제적 지속 가능성에 대해 논의합니다.
핵심 포인트
- Gemini 3.5 Flash의 토큰당 가격이 이전 모델 대비 대폭 인상되어 경제적 부담이 증가함
- 모델의 성능(벤치마크) 향상이 가격 인상의 근거가 될 수 있으나, 실제 추론 비용 효율성은 의문임
- 특정 모델 제공자에 종속되지 않기 위해 추상화 계층(예: Koog)을 사용하는 전략이 중요해짐
- LLM의 발전 방향이 합성 데이터와 엄격히 선별된 데이터를 통한 고품질 추론 확보로 이동하고 있음
이건 거대 언어 모델의 발전에서 느꼈던 현상을 완벽히 보여줌. 이런 SVG 개선을 시키면 빠진 가로대나 분리된 팔다리는 고치지 않고, 그냥 더 많은 요소를 추가함
이 예시도 분명 크게 좋아졌고 디테일은 터무니없이 많지만, 기본적인 프레임 모양은 여전히 틀림. 웹페이지로 해봐도 버튼 같은 걸 더 추가하는 식으로 같은 패턴이 나타남
망가진 펠리컨 SVG를 이미지 모델에 넣어 결함을 찾게 해봤는데도, 망가진 요소를 여전히 못 찾아냄
입력/출력 백만 토큰당 가격:
Gemini 2.5 Flash: $0.30/$2.50
Gemini 3.0 Flash Preview: $0.50/$3.00
Gemini 3.5 Flash: $1.50/$9.00
가격 방향이 흥미로움. 같은 크기의 바로 다음 모델에서 3배 가격 인상은 본 적이 없는 것 같고, 3은 Preview만 있었던 것도 웃김
3.5 Flash는 $1.25/$10였던 Gemini 2.5 Pro와 비슷한 비용임
이건 비용 증가를 과소평가함. 3.5 Flash는 토큰도 더 많이 씀. artificialanalysis.ai 기준 전체 평가를 돌린 비용 차이는 더 현실적인 가격에 가까워 보임:
Gemini 2.5 Flash(27점): $172(1.0x)
Gemini 2.5 Pro(35점): $649(3.8x)
Gemini 3.0 Flash(46점): $278(1.6x)
Gemini 3.5 Flash(55점): $1,552(9.0x, 또는 2.5 Pro 대비 2.4x)
엄청난 가격 인상임. Gemini 3.0 Flash와 비교하면 5.6배임
애초에 저렴한 모델을 계속 제공할 생각이 없었을 가능성이 큼. API 위에 서비스를 만든 사람들이 생긴 뒤 압박을 넣기 시작하는 자연스러운 방식임
그래서 제공자에 묶이지 않는 추상화 계층을 두는 게 정말 합리적임. Kotlin을 쓴다면 Koog가 훌륭함
또 한 번의 DeepSeek 순간이 필요함. 아니면 평범한 사람이 AI를 쓰기 어려워지고, 대기업만 감당할 수 있는 물건이 될 것임
Google이 TPU 덕분에 실제로 다른 곳보다 더 싸게 추론을 돌리고 있다면, 이건 위험 신호처럼 느껴짐. 거대 언어 모델을 이익 내며 서빙하기가 어려운 것으로 드러나는지도 모름
아니면 벤치마크가 좋으니 가격을 올려도 된다고 보는 것일 수 있음. 다만 아직 그런 결정을 정당화할 만큼 시장점유율이 있어 보이진 않음
Google이 이번 모델을 Preview가 아니라 Stable로 표시한 점은 눈여겨볼 만함. 최근 출시 흐름과 비교하면 이례적임
여기에 3배 가격 인상까지 더하면, Flash 가격은 나중에 되돌릴 임시 조치라기보다 Google이 원하는 장기 하한선처럼 읽힘
다만 이게 Google만 분위기를 읽은 결과인지, 업계 전체가 조용히 저가 추론의 기준선을 다시 잡는 중인지는 아직 판단하기 어려움
다들 정말 웃김. 3.5 Flash Thinking High만 유일하게 이상하게 뒤틀려 있음. 3.1 Pro의 모자는 대체 무슨 일인지 모르겠음
누가 "Flash"라고 하면 바로 "대신 HTML5를 고려해보세요"가 떠오를 정도로 내가 정말 나이 든 건가?
Flash 문화를 그렇게 재미있게 만들었던 요소 중 HTML5로 넘어온 건 거의 없음
Flash 디자이너는 정말 좋았음. 웹이 어느 정도 후퇴시킨 것 중 하나가 90년대와 2000년대의 RAD 도구들이었음
젊은이들이여!
Flash, ah, ah, saviour of the universe. Flash, ah, ah, he'll save every one of us!
지난 몇 년인지도 모를 만큼 오래, "flash"라는 단어를 들을 때마다 항상 이게 떠오름
지식 기준일: 2025년 1월
최신 업데이트: 2026년 5월
이 지연에 대해 아주 불길한 느낌이 듦
적어도 일부 경우에는 더 많은 합성 데이터와 엄격히 선별된 데이터로 학습하는 방향으로 가는 것 같음. 특히 작은 모델은 수십~수백 GB의 모델 가중치 안에 세상을 다 저장할 공간이 없어서 지식 폭을 극도로 넓힐 수 없음
그래서 더 높은 품질의 추론을 얻으려면 학습을 집중시키고, 데이터는 아주 고품질·고밀도여야 함
도구 사용이 강하면 모델이 오래된 데이터를 쓰는 것 자체는 별로 중요하지 않을 수도 있음. 최신 정보를 검색할 수 있기 때문임. 다만 현재 대부분 모델은 약간 유도해주지 않으면 그렇게 하지 않음
Qwen 3 계열은 모두 같은 기반 모델에서 출발해 여러 지표를 개선하기 위해 미세조정/후학습만 한 것으로 알고 있음. Gemini 3 계열도 전부 같을 수 있고, 지금 이 순간 Gemini 4 기반 모델을 최신 지식으로 동시에 학습 중일지도 모름
사실을 모델 가중치에서 꺼내게 하면 안 됨. 실제 데이터 소스로 근거를 잡아야 함
무슨 뜻인지 설명해줄 수 있음?
그건 Google이 선택한 것이라고 생각했음
google ai pro plan을 쓰고 있고 Antigravity에서 3.5 Flash를 써봤는데, 프롬프트 두 번 만에 할당량을 다 써버림. 버그가 아니라면 정말 사용 불가능한 수준임
어제나 그제 Google이 AI Pro 할당량을 표준 사용량의 33배에서 4배로 낮췄음
Gemini subreddit 분위기를 보면 이전보다 심하게 줄어든 듯함. 나도 AI Pro를 취소할 가능성이 큼
이번 업데이트로 앱도 망가졌음. 메시지를 수정하면 매번 앱이 크래시남. 심지어 Pixel에서 쓰고 있는데도 그럼
AI 자동 생성 콘텐츠
본 콘텐츠는 GeekNews의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기