이번 주 Hacker News에서 Gemini 3.5 Flash 발표가 화제가 되었고, 팀원들로부터 우리의 내부 도구들을 Claude Haiku나 GPT-4o mini에서 전환해야 할지 묻는 연락을 계속 받고 있습니다. 분류(Classification) 및 코드 라우팅(Code-routing) 작업에 대해 주말 동안 비공식적인 평가(Evals)를 수행한 결과, 몇 가지 의견을 정리했습니다. 먼저 주의할 점은, 마케팅 벤치마크와 실제 API 동작은 일치하는 경우가 드물기 때문에 Gemini 3.5 Flash의 특정 기능 주장들에 대해서는 유보적인 입장을 취한다는 것입니다. 제가 인용하는 수치를 포함하여, 어떤 수치에 자신의 아키텍처를 걸기 전에 반드시 공식 Gemini 문서를 확인하십시오.

왜 소형 모델(Small models)을 전환해야 할까요? 제가 함께 일하는 대부분의 팀은 다음과 같은 지루한 작업들을 위해 작고 빠른 모델을 사용합니다:

분류 (Classification) (이 티켓이 결제, 버그, 아니면 기능 요청인가?)
요약 (Summarization) (긴 Slack 스레드의 요약(TL;DR))
에이전트 설정에서의 코드 라우팅 (Code routing)
경량 추출 (Lightweight extraction) (송장에서 날짜와 금액 추출)

이 중 어떤 작업에도 프런티어 모델(Frontier model)은 필요하지 않습니다. 여러분에게 필요한 것은 저렴하고, 빠르고, 일관된 것입니다. 제 경험상 프런티어 모델은 도구 라우팅(Tool routing)에 오히려 더 좋지 않습니다. 반사적으로 처리되어야 할 작업에 대해 과하게 생각하고 지연 시간(Latency)을 낭비하기 때문입니다. 따라서 새로운 소형 모델이 출시되면, 전체 마이그레이션(Migration)이 아니라 단 30분 정도의 평가를 해볼 가치가 있습니다. 그냥 확인해 보는 것입니다.

경쟁 모델들
오늘 새로운 프로젝트를 위해 제가 고려할 세 가지 모델은 다음과 같습니다:

Gemini 3.5 Flash — Google의 최신 고속 모델. 2.5 세대보다 더 빠르고 저렴하며, 매우 긴 컨텍스트 윈도우(Context window)를 가진 것으로 알려져 있습니다. 세부 사항에 대해서는 아래에서 주의 사항을 덧붙이겠습니다.
Claude Haiku 4.5 — Anthropic의 소형 모델. 저는 2년 동안 프로덕션 환경에서 Haiku를 사용해 왔으며, 구조화된 출력(Structured outputs)이나 도구 호출(Tool calling)이 필요한 모든 작업에 기본 모델로 사용합니다.
GPT-4o mini — OpenAI의 소형 모델. 여전히 견고하며, 여전히 가장 깊은 생태계 지원을 갖추고 있습니다.

Llama와 Mistral은 의도적으로 제외했습니다. 자체 호스팅되는 오픈 모델(Open models)은 별도의 포스팅을 다룰 가치가 있습니다.

나란히 비교하기: API 호출하기
실제 사용 시 각각이 어떻게 보이는지 살펴보겠습니다. 세 모델 모두 공식 SDK를 제공하며, 형태는 유사하지만 완전히 동일하지는 않습니다.

Gemini 3.5 Flash # pip install google-generativeai
import google.generativeai as genai
genai.configure(api_key=" YOUR_KEY ")

공식 문서를 통해 정확한 모델 ID를 확인하세요.

model = genai.GenerativeModel("gemini-3.5-flash")
response = model.generate_content("Classify this ticket: 'Cannot log in after password reset.'", generation_config={ "temperature": 0.2 })

분류를 위해 낮은 temperature 사용

print(response.text)

Claude Haiku 4.5 # pip install anthropic
from anthropic import Anthropic
client = Anthropic() # 환경 변수에서 ANTHROPIC_API_KEY 읽기
msg = client.messages.create(
model="claude-haiku-4-5",
max_tokens=200,
messages=[{ "role": "user", "content": "Classify this ticket: 'Cannot log in after password reset.'" }]
)
print(msg.content[0].text)

GPT-4o mini # pip install openai
from openai import OpenAI
client = OpenAI()
resp = client.chat.completions.create(
model="gpt-4o-mini",
messages=[{ "role": "user", "content": "Classify this ticket: 'Cannot log in after password reset.'" }],
temperature=0.2
)
print(resp.choices[0].message.content)

동일한 작업을 수행하는 세 가지 다른 형태입니다. 오래 계신 분들은 이 패턴을 아실 겁니다. 즉, 자체 인터페이스로 감싸고 외관상의 차이는 신경 쓰지 않는 것입니다.

마이그레이션하기: 얇은 어댑터
지난 분기에 저희 파이프라인 중 하나를 GPT-4o mini에서 Gemini Flash(새로운 버전이 아닌 2.5 세대)로 마이그레이션했습니다. 저에게 도움이 된 패턴은 다음과 같습니다:

adapter.py — 비즈니스 로직을 공급자 독립적으로 유지

class LLMClient :
def init(self, provider : str):
self.provider = provider
if provider == "gemini":
import google.generativeai as genai
self.model = genai.GenerativeModel("gemini-3.5-flash")
elif provider == "claude":
from anthropic import Anthropic
self.client = Anthropic()
elif provider == "openai":
from openai import OpenAI
self.client = OpenAI()

def classify ( self , prompt : str ) -> str : # 하나의 방법, 세 가지 구현 — 호출자는 깔끔하게 유지된다 if self . provider == " gemini " : return self . model . generate_content ( prompt ). text if self . provider == " claude " : msg = self . client . messages . create ( model = " claude-haiku-4-5 " , max_tokens = 200 , messages = [{ " role " : " user " , " content " : prompt }] ) return msg . content [ 0 ]. text # openai resp = self . client . chat . completions . create ( model = " gpt-4o-mini " , messages = [{ " role " : " user " , " content " : prompt }] ) return resp . choices [ 0 ]. message . content 지루한가요? 네. 하지만 이 어댑터 덕분에 새로운 Gemini 모델을 A/B 테스트해야 했을 때 일주일 시간을 절약할 수 있었습니다. 설정 플래그를 바꾸고, 동일한 프롬프트를 재실행하며, 출력을 비교했습니다. 비즈니스 로직은 전혀 변경되지 않았습니다. 제가 감수할 만한 트레이드오프들: 구조화된 출력 및 도구 호출에 있어 Claude Haiku가 가장 예측 가능합니다. 다운스트림 코드가 JSON을 파싱한다면, 여기서 시작하세요. GPT-4o mini는 가장 깊은 생태계를 가지고 있습니다 — 모든 프레임워크, 모든 튜토리얼, 모든 Stack Overflow 답변이 그렇습니다. 팀원들이 주니어라면, 문서만으로도 가치가 충분합니다. Gemini Flash는 역사적으로 세 모델 중 가장 큰 컨텍스트 창을 가졌었습니다. 전체 코드베이스나 긴 문서를 프롬프트에 넣어야 할 때 유용합니다. 3.5 Flash에 대해 제가 명시적으로 신중하게 접근하는 부분: Google 발표의 벤치마크 수치는 좋아 보입니다. 하지만 벤치마크는 항상 좋아 보입니다. 직접 평가(evals)를 실행하세요. 아직 Haiku와 비교하여 도구 호출의 신뢰성을 테스트하지 못했습니다. 그것은 다음 달 프로젝트입니다. 공식 페이지의 가격만이 제가 신뢰하는 유일한 숫자입니다. 비용 가정을 기반으로 아키텍처를 설계하기 전에 확인하세요. 어떤 것을 선택해야 할까요? 솔직히 말해서: 이미 무엇을 실행하고 있는지에 달려 있습니다. Haiku를 사용 중이고 잘 작동한다면? 마이그레이션하지 마세요. 절약되는 비용이 엔지니어링 시간을 상쇄할 만큼 크지 않을 것입니다.

방대한 컨텍스트 (Context) 요구 사항이 있는 새로운 것을 구축하고 있나요? 그렇다면 Gemini 3.5 Flash로 시작하세요. 롱 컨텍스트 (Long-context)는 이 모델의 전문 분야입니다. 에이전트 (Agents)를 위한 완벽한 도구 호출 (Tool calling) 기능이 필요한가요? 언제나 Claude Haiku를 선택하세요. 그저 사이드 프로젝트를 출시 중이며 마찰 없는 사용을 원하시나요? GPT-4o mini가 답입니다. LLM 마이그레이션의 숨겨진 비밀은 모델 선택이 여러분의 프롬프트 (Prompts)나 평가 스위트 (Eval suite)보다 훨씬 덜 중요하다는 것입니다. 평가 (Evals)에 먼저 시간을 투자하세요. 그런 다음 지난주 Hacker News에서 유행했던 모델이 아니라, 여러분의 벤치마크 (Benchmark)에서 승리한 모델을 선택하세요.

Gemini 3.5 Flash vs Claude Haiku vs GPT-4o mini: 소형 모델 선택하기

요약

핵심 포인트

공식 문서를 통해 정확한 모델 ID를 확인하세요.

분류를 위해 낮은 temperature 사용

adapter.py — 비즈니스 로직을 공급자 독립적으로 유지

댓글