오픈 모델이 임계점을 넘었습니다

핵심 요약 (Key Takeaways)

요약 (TL;DR): GLM-5 및 MiniMax M2.7과 같은 오픈 모델(Open models)은 이제 파일 작업, 도구 사용(Tool use), 지시 이행(Instruction following)과 같은 핵심 에이전트 작업에서 훨씬 적은 비용과 지연 시간(Latency)으로 폐쇄형 프런티어 모델(Closed frontier models)과 대등한 성능을 보여줍니다. 다음은 당사의 평가(Evals) 결과와 이를 Deep Agents에서 사용하기 시작하는 방법입니다.

지난 몇 주 동안, 당사는 Deep Agents harness 평가를 통해 오픈 웨이트 거대 언어 모델(Open weight Large Language Models)을 실행해 왔으며, 초기 결과에 따르면 이 모델들은 폐쇄형 프런티어 모델을 대신하거나 병행하여 사용할 수 있는 실행 가능한 옵션임을 보여줍니다. GLM-5 (z.ai)와 MiniMax M2.7은 파일 작업, 도구 사용, 지시 이행과 같은 핵심 에이전트 작업에서 각각 폐쇄형 프런티어 모델과 유사한 점수를 기록했습니다.

SWE-Rebench 및 Terminal Bench 2.0과 같은 방대한 오픈 벤치마크(Open benchmarks)를 통해 오픈 모델의 발전을 지켜봐 왔다면 이는 놀라운 일이 아닙니다. 도구 호출(Tool calling)은 신뢰할 수 있으며 지시 이행은 일관적입니다. 프로덕션 환경에 에이전트를 배포하는 개발자들에게 오픈 모델은 이제 실제 워크플로우를 훨씬 더 실행 가능하게 만드는 수준의 일관성과 예측 가능성을 제공합니다.

오픈 모델을 사용하는 이유

오픈 모델을 탐색할 때, 빌더와 고객들은 몇 가지 핵심 요소에 집중하는 경향이 있습니다: 비용(Cost), 지연 시간(Latency), 그리고 **작업 성능(Task performance)**입니다.

이론적으로는 모든 작업에 대해 가장 높은 추론 수준을 가진 가장 똑똑한 프런티어 모델을 사용하는 것이 가장 좋습니다. 하지만 실제로는 두 가지 제약 사항 때문에 그것이 불가능합니다: 비용과 지연 시간입니다. 폐쇄형 프런티어 모델은 높은 처리량(High-throughput) 워크로드에서 8~10배 더 비쌀 수 있으며, 사용자가 대화형 제품에서 기대하는 응답 시간에는 너무 느린 경우가 많습니다.

가격 비교를 위해 예시를 들자면: 하루에 1,000만 토큰을 출력하는 애플리케이션의 경우, Opus 4.6에서는 하루에 약 250달러가 소요되는 반면 MiniMax M2.7은 하루에 약 12달러가 소요됩니다. 이는 연간 약 87,000달러의 차이를 의미합니다.

오픈 모델 (Open models)은 폐쇄형 프런티어 모델 (closed frontier models)보다 크기가 작은 경향이 있으며, 특화된 추론 인프라 (inference infrastructure)를 통해 가속화될 수 있습니다. Groq, Fireworks, Baseten과 같은 제공업체들은 대부분의 팀이 자체적으로 달성할 수 있는 수준을 훨씬 뛰어넘는 지연 시간 (latency) 및 처리량 (throughput) 최적화를 제공합니다. OpenRouter 데이터에 따르면, Baseten의 GLM-5는 평균 0.65초의 지연 시간과 초당 70개 토큰 (tokens/second)을 기록한 반면, Claude Opus 4.6은 2.56초의 지연 시간과 초당 34개 토큰을 기록했습니다. 지연 시간에 민감한 제품의 경우, 이러한 격차를 기술적으로 극복하기란 매우 어렵습니다.

평가 방법 (How we evaluated)

저희는 How we build evals for Deep Agents에서 평가 방법론에 대해 심도 있게 다룬 바 있습니다. 저희는 호스팅된 추론 제공업체를 사용하여 평가를 수행하지만, Deep Agents는 Ollama, vLLM 등을 통해 완전히 로컬이고 프라이빗한 모델로도 실행할 수 있습니다.

오픈 모델의 경우, 파일 작업 (file operations), 도구 사용 (tool use), 검색 (retrieval), 대화 (conversation), 메모리 (memory), 요약 (summarization), 그리고 "단위 테스트 (unit tests)"라는 7가지 평가 카테고리를 실행했습니다. 이 카테고리들은 모델의 기본 능력을 시험하는 작업들을 포함합니다: 모델이 신뢰할 수 있게 도구를 호출하고, 구조화된 지침을 따르며, 파일 작업을 수행할 수 있는가? 이것들은 모델이 에이전트 프레임워크 (agentic harness) 내에서 사용 가능한지 여부를 결정짓는 핵심 역량입니다.

각 평가 케이스는 성공 단언 (success assertions, 정확도를 결정하는 하드 페일 체크)과 효율성 단언 (efficiency assertions, 모델이 결과에 도달한 방식을 측정하는 소프트 체크)을 정의합니다. 저희는 네 가지 지표를 보고합니다:

정확도 (Correctness)— 모델이 해결한 테스트의 비율: passed / total.
0.68점은 테스트 케이스의 68%를 올바르게 해결했음을 의미합니다. 이것이 주요 품질 신호입니다.

해결률 (Solve rate)— 정확도와 속도를 결합한 측정치. 각 테스트에 대해 다음을 계산합니다: expected_steps / wall_clock_seconds. 실패한 테스트는 0으로 처리됩니다. 최종 점수는 모든 테스트의 평균입니다. 점수가 높을수록 좋습니다. 작업을 정확하고 빠르게 모두 해결하는 모델이 가장 높은 점수를 받습니다.

단계 비율 (Step ratio)— 저희가 예상한 단계 수 대비 모델이 실제로 수행한 에이전트 단계 수로, 모든 테스트에 대해 집계됩니다: total_actual_steps / total_expected_steps

1.0이라는 값은 모델이 정확히 예상된 단계 수만큼 사용했음을 의미합니다. 1.0보다 크면 더 많은 단계가 필요했음(덜 효율적임)을 의미하며, 1.0보다 작으면 처음에 예상했던 것보다 더 적은 단계가 필요했음을 의미합니다. 도구 호출 비율 (Tool call ratio) — 단계 비율 (step ratio)과 동일한 개념이지만, 단계 대신 개별적인 도구 호출 (tool calls)을 계산합니다. 1.0은 예산 내(on-budget), 1.0보다 높으면 예산 초과(over-budget), 1.0보다 낮으면 예산 미달(under-budget)입니다.

단계 비율 (Step ratio)과 도구 호출 비율 (tool call ratio)은 효율성 (efficiency) 지표입니다. 이 지표들은 테스트의 통과 여부에는 영향을 미치지 않지만, 모델이 얼마나 경제적으로 정답에 도달하는지를 보여줍니다. 예상된 5단계 대신 2단계 만에 작업을 해결하는 모델은 정답이면서 동시에 효율적입니다.

평가 (evals) 결과

이것은 초기 결과이며, 저희는 평가 세트 (eval set)를 적극적으로 유지 관리하고 확장하고 있습니다. 최근 실행 결과는 **저희의 GitHub 리포지토리 (GitHub repo)**와 **이 공유된 LangSmith 프로젝트 (shared LangSmith project)**에서 실시간으로 확인할 수 있습니다.

오픈 모델 (Open models)

CI 실행 보기 (View CI run) (모델 이름을 클릭하면 개별 평가를 볼 수 있습니다)

카테고리별 정확도 (Per-category correctness):

프론티어 모델 (Frontier models)

CI 실행 보기 (View CI run) (모델 이름을 클릭하면 개별 평가를 볼 수 있습니다)

카테고리별 정확도 (Per-category correctness):

*각 모델에 대해, 저희는 제공업체의 기본 사고 수준 (default thinking level)을 사용하기로 선택했습니다. Gemini 3+의 경우, 이는 높음(high)입니다.

OpenAI의 경우, 이는

medium

Claude의 경우, 이는 확장된 사고 (extended thinking) 없이 설정되었습니다.

DIY: Deep Agent 평가를 로컬에서 실행하기

저희의 CI는 모든 평가 워크플로우에서 실행되는 open 그룹 (baseten:zai-org/GLM-5, ollama:minimax-m2.7:cloud, ollama:nemotron-3-super)을 포함하여, 그룹별로 조직된 52개 모델에 대해 동일한 평가 스위트 (evaluation suite)를 실행합니다. 어떤 모델 그룹이든 대상으로 지정할 수 있습니다:

# 모든 오픈 모델에 대해 평가 실행
pytest tests/evals --model-group open
# 특정 모델에 대해 실행
...

이를 통해 동일한 과제에 대해, 동일한 채점 기준을 사용하여 오픈 모델들을 서로 비교하거나 폐쇄형 프론티어 모델 (closed frontier models)과 비교하는 것이 간단해집니다.

Deep Agents SDK에서 오픈 모델 사용하기

오픈 모델로 교체하는 것은 한 줄의 변경만으로 가능합니다:

GLM-5:

# pip install langchain-baseten
from deepagents import create_deep_agent
agent = create_deep_agent(model="baseten:zai-org/GLM-5")

MiniMax M2.7:

# pip install langchain-openrouter
from deepagents import create_deep_agent
agent = create_deep_agent(model="openrouter:minimax/minimax-m2.7")

그게 전부입니다. 하네스 (Harness)가 나머지를 처리합니다. 하네스는 모델의 컨텍스트 윈도우 (Context Window) 크기를 감지하고, 지원되지 않는 모달리티 (Modalities)를 비활성화하며, 에이전트가 자신이 무엇을 사용하고 있는지 알 수 있도록 시스템 프롬프트 (System Prompt)에 적절한 정체성을 주입합니다.

동일한 오픈 모델은 종종 여러 제공업체를 통해 사용할 수 있습니다. 귀하의 제약 조건에 맞는 것을 선택하십시오. 예를 들어, GLM-5는 baseten:zai-org/GLM-5, fireworks:fireworks/glm-5, 또는 셀프 호스팅 (Self-hosted)을 위한 ollama:glm-5로 사용할 수 있습니다. 동일한 모델, 동일한 하네스, 다른 인프라 (Infrastructure)입니다.

LangChain은 가장 인기 있는 오픈 모델 제공업체에 대한 지원을 제공합니다. 이번 릴리스에서 테스트한 제공업체는 Baseten, Fireworks, Groq, OpenRouter, 그리고 Ollama (cloud)입니다.

모델을 위한 하네스 레벨 (Harness-level) 조정

오픈 모델은 폐쇄형 프런티어 모델 (Closed Frontier Models)과 비교했을 때 서로 다른 컨텍스트 윈도우, 서로 다른 도구 호출 (Tool-calling) 형식, 그리고 서로 다른 실패 모드 (Failure Modes)를 가집니다. Deep Agents 하네스는 사용자가 직접 신경 쓰지 않아도 되도록 이러한 차이점들을 흡수합니다:

모델 정체성 주입 (Model identity injection)— 시스템 프롬프트는 런타임 (Runtime)에 모델의 이름, 제공업체, 컨텍스트 제한, 지원되는 모달리티로 패치됩니다. 에이전트는 자신이 누구인지, 무엇을 할 수 있는지 알게 됩니다.

컨텍스트 관리 (Context management)— 압축 (Compression), 오프로딩 (Offloading), 요약 임계값 (Summarization thresholds)은 하드코딩된 기본값이 아니라 모델의 실제 컨텍스트 윈도우에 맞춰 조정됩니다. 4K 컨텍스트를 가진 모델은 1M 컨텍스트를 가진 Opus보다 더 공격적인 압축을 수행합니다.

Deep Agents CLI

각 모델은 Deep Agents CLI에서도 사용할 수 있습니다. Deep Agents CLI는 우리의 오픈 소스 코딩 에이전트이자 Claude Code의 대안입니다.

Deep Agents SDK의 모든 기능 외에도, CLI는 **런타임 모델 스와핑 (Runtime model swapping)**을 지원합니다. 우리는 에이전트를 재시작하지 않고도 세션 중간에 모델을 전환할 수 있도록 새로운 미들웨어(ConfigurableModelMiddleware)를 도입했습니다. 이를 통해 계획(planning)에는 프런티어 모델(frontier model)을 사용하고, 실행(execution)에는 오픈 모델(open model)을 사용하는 것과 같은 패턴이 가능해집니다.

/model 슬래시 명령어를 사용하여 세션 중간에 모델을 전환할 수 있습니다. 이는 계획을 위해 프런티어 모델로 작업을 시작한 다음, 실행을 위해 더 저렴한 오픈 모델로 전환하는 패턴을 가능하게 합니다.

향후 계획

곧 공유하게 될 몇 가지 흥미로운 소식입니다:

특정 오픈 모델 제품군을 위한 하네스 튜닝(harness tuning) 패턴 문서화
멀티 모델 서브 에이전트(multi-model subagent) 구성 테스트 (예: 프런티어 폐쇄형 모델 오케스트레이터 + 오픈 모델 서브 에이전트)

오늘날 오픈 모델은 에이전트로서 충분히 제 역할을 하고 있습니다. 우리는 좋은 하네스를 설계하고, 여러분의 작업에 있어 중요한 것을 측정할 수 있는 타겟팅된 평가(evals)를 구축하는 데 도움이 되는 디자인 패턴을 보여드리고자 합니다.

Deep Agents는 오픈 소스입니다. 여러분이 선호하는 오픈 모델과 함께 시도해 보시고, 저희와 함께 훌륭한 평가와 에이전트를 만들어 나가세요.

Insights