멀티 모듈 AI 에이전트(Hermes Architecture)의 각 작업에 적합한 모델 선택하기

AI 에이전트는 더 이상 단일한 모놀리식 (Monolithic) 모델을 중심으로 구축되지 않습니다. 더 스마트한 접근 방식 — 특히 Hermes와 같이 기능이 풍부한 에이전트의 경우 — คือ 작업 기반 모델 오케스트레이션 (Task-based model orchestration) 입니다. 즉, 각 작업을 그에 가장 적합한 모델로 라우팅(Routing)하는 것입니다. 이는 출력 품질과 비용 효율성을 동시에 향상시킵니다.

이 가이드에서 우리는 2026년의 전체 경쟁 구도 — Anthropic, OpenAI, Google, DeepSeek, Moonshot (Kimi), MiniMax, Alibaba (Qwen), 그리고 Xiaomi (MiMo) — 를 특정 에이전트 모듈에 매핑합니다. 이 프레임워크는 지리적 위치가 아닙니다. 바로 역량 계층 (Capability tier) 입니다. 즉, 이 작업에 실제로 무엇이 필요하며, 이를 안정적으로 수행할 수 있는 가장 저렴한 모델은 무엇인가 하는 점입니다.

작업 기반 모델 선택이 중요한 이유

모든 모델이 동일하게 만들어진 것은 아닙니다. 어떤 모델은 몇 시간 동안 지속되는 자율적 실행 (Autonomous execution)에 뛰어나고, 어떤 모델은 초장기 컨텍스트 (Ultra-long context)에, 또 어떤 모델은 빠르고 저렴한 분류 (Classification)에 탁월합니다. 모든 작업을 가장 강력한 모델이 처리해야 할 것처럼 취급하는 것은 흔한 실수이며, 규모가 커질수록 실제적인 낭비로 이어집니다.

"하나의 모델이 모든 것을 해결한다 (One model fits all)"는 접근 방식은 다음과 같은 문제를 일으킵니다:

불필요한 비용 — 균형 잡힌 모델이 충분히 처리할 수 있는 작업에 프론티어 (Frontier) 모델을 사용함
지연 시간 (Latency) 증가 — 더 가벼운 모델로도 충분함에도 불구하고 대형 모델을 사용하여 속도가 느려짐
품질 저하 — 일부 작업은 기본 선택지로는 따라올 수 없는 전문가 모델 (Specialist)이 진정으로 필요함

에이전트의 모든 모듈에 대해 던져야 할 올바른 질문은 다음과 같습니다: 이 작업에 실제로 필요한 역량 계층 (Capability tier)은 무엇인가?

계층별 전체 모델 지형

프론티어 계층 (Frontier Tier)

이들은 신뢰성과 지속적인 자율적 실행이 타협 불가능할 때 찾는 모델들입니다. 대부분의 벤치마크에서 이들 사이의 격차는 매우 좁기 때문에, 순수 순위보다는 비용, 데이터 거주성 (Data residency), 그리고 특정 작업에 대한 적합성이 더 중요하게 작용하는 경우가 많습니다.

Claude Opus 4.8 (Anthropic, 2026년 5월)은 장기적 에이전트 작업 (long-horizon agentic work)을 위한 선도적인 모델입니다. SWE-Bench Pro에서 69.2%를 기록했으며, Super-Agent 벤치마크의 모든 케이스를 완료한 유일한 모델입니다 (비용 효율성 측면에서 GPT-5.5를 능가함). 또한 Online-Mind2Web 브라우저 작업에서 84%로 앞서고 있습니다. 이 모델의 Dynamic Workflows 기능은 단일 세션 내에서 수백 개의 병렬 서브 에이전트 (subagents)로 확장됩니다. Opus 4.7에 비해 코드 결함을 감지하지 못하고 넘어갈 확률이 4배 더 낮으며, 이는 무인 에이전트 실행 (unattended agent runs) 시 매우 중요합니다. 가격은 100만 토큰당 입력 $5 / 출력 $25입니다.

GPT-5.5 (OpenAI, 2026년 4월)는 OpenAI의 가장 강력한 에이전트 코딩 모델로, Terminal-Bench 2.0에서 82.7%로 선두를 달리고 있습니다. 계획 수립, 도구 사용, 작업 검토, 모호성 탐색, 지속 수행 등 다단계 워크플로 (multi-step workflows)에 특화되어 최적화되었습니다. 멀티 에이전트 시스템 (multi-agent systems)에서 오케스트레이터 (orchestrator)와 서브 에이전트 (subagent) 역할을 모두 훌륭히 수행합니다. 가격은 100만 토큰당 입력 약 $8 / 출력 약 $32입니다.

Gemini 3.5 Flash (Google, 2026년 5월)는 전통적인 Pro/Flash 품질 계층 구조를 깨뜨렸습니다. 에이전트 및 코딩 벤치마크에서 Gemini 3.1 Pro보다 뛰어난 성능을 보이면서도 4배 더 빠르게 작동합니다. MCP Atlas에서 83.6%를 기록하며 (에이전트 도구 사용 분야에서 동급 최고), Terminal-Bench 2.1에서 76.2%, Finance Agent v2에서 57.9%로 선두를 차지하고 있습니다. 텍스트, 이미지, 비디오, 오디오, PDF 입력을 지원하는 네이티브 멀티모달 (natively multimodal) 모델입니다.

Kimi K2.6 (Moonshot AI, 2026년 4월)은 SWE-Bench Pro에서 58.6%를 기록하며 GPT-5.4와 Claude Opus 4.6을 앞서고 있습니다. 에이전트 스웜 (Agent Swarm) 모드는 4,000개의 조정된 단계에 걸쳐 300개의 병렬 서브 에이전트 (sub-agents)를 지원하며, 이는 Hermes 호환 멀티 에이전트 오케스트레이션 (multi-agent orchestration)을 위해 특수 설계되었습니다. 환각 (Hallucination) 발생률은 65%(K2.5)에서 39%(K2.6)로 감소하여, 실제 운영 환경에 적용 가능한 수준(production-readiness)으로 유의미하게 개선되었습니다. 100만 토큰당 입력 비용은 $0.60입니다. API는 중국 서버를 통해 라우팅되므로, 규제가 엄격한 워크로드의 경우 자체 호스팅 (self-host)이 필요합니다.

DeepSeek-V4-Pro (DeepSeek, 2026년 4월)는 총 1.6T 파라미터를 보유하고 있으며, 기본 1M 토큰 컨텍스트 윈도우 (context window)와 세 가지 추론 (reasoning) 모드를 제공합니다. 대부분의 벤치마크에서 Claude Opus 4.6 및 GPT-5.4와 대등한 성능을 보여줍니다. 100만 토큰당 입력 $0.145 / 출력 $3.48로 가장 비용 효율적인 프런티어 (frontier) 옵션입니다. 모든 중국 API 엔드포인트와 마찬가지로 데이터 거주성 (data residency)에 대한 주의 사항이 있습니다.

Balanced Tier (균형 잡힌 계층)

Claude Sonnet 4.6 (Anthropic) — 신뢰할 수 있는 데일리 드라이버 (daily driver)입니다. 강력한 지시 이행 (instruction following), 자연스러운 요약, 그리고 구조화된 글쓰기에 능합니다. 프런티어급 가격이 부담스럽지만 품질이 필요할 때 선택하는 기본 옵션입니다.

Gemini 3 Flash (Google) — Flash 비용으로 프런티어급 성능을 제공합니다. SWE-Bench Verified에서 78%를 달성하며 Gemini 2.5 Pro를 능가합니다. Artificial Analysis에 따르면 동일 계층의 경쟁사보다 3배 더 빠릅니다. 100만 토큰당 입력 $0.50 / 출력 $3입니다. 강력한 멀티모달 (multimodal) 지원을 제공하며, Google 생태계 구축자들에게 가장 적합한 균형 잡힌 옵션입니다.

Qwen3.5-397B-A17B (Alibaba, 2026년 2월) — 총 397B 파라미터 중 17B가 활성화되는 구조입니다 (Gated DeltaNet + MoE 하이브리드 아키텍처). 지시 이행 성능에서 앞서 나가고 있습니다: IFBench에서 76.5를 기록하며 GPT-5.2를 이겼고, 해당 벤치마크에서 Claude를 크게 앞섭니다. 201개의 언어를 지원합니다. 256K 네이티브 컨텍스트를 제공하며 1M까지 확장 가능합니다. 벤치마크에서 경쟁력 있는 품질을 유지하면서도 Claude Sonnet 4.6보다 6배 빠른 응답 속도를 보여주었습니다. Apache 2.0 라이선스의 완전한 오픈 웨이트 (open-weight) 모델로, 소비자용 하드웨어에서도 실행 가능합니다. 지시 이행, 다국어, 그리고 높은 처리량 (high-throughput)이 필요한 요약 워크로드에 이상적입니다.

Qwen3-Coder 480B-A35B (Alibaba, 2025년 7월) — 전용 코딩 전문가(Dedicated coding specialist), 7.5T 토큰에 대해 70%의 코드 중심 학습 수행, 총 480B / 활성 35B 파라미터, 256K 컨텍스트(context). 셀프 호스팅(self-hosting)이 가능한 모델 중 가장 강력한 목적 특화형 오픈 소스 코딩 모델입니다.

MiniMax-M2.5 (MiniMax, 2026년 2월) — SWE-Bench Verified에서 80.2%, BrowseComp에서 76.3% 기록. Word, Excel, PowerPoint 파일 작업을 네이티브로 처리합니다. 초당 241 토큰 — MiniMax 라인업 중 가장 빠릅니다. 100만 토큰당 입력 $0.15 / 출력 $0.90.

MiniMax-M1 (MiniMax, 2025년 6월) — 네이티브 롱 컨텍스트(long-context) 전문가. 1M 토큰 컨텍스트를 지원하며, 100K 토큰 생성 시 DeepSeek R1이 필요로 하는 연산량(compute)의 25%만 소비합니다. 제약 사항이 컨텍스트 길이(전체 코드베이스, 다중 문서 코퍼스, 방대한 로그 등)일 때, M1은 목적에 부합하는 최적의 선택입니다.

DeepSeek-V3.1 (DeepSeek) — 하이브리드 사고/비사고(thinking/non-thinking) 범용 모델, 671B 파라미터 (활성 37B), 128K 컨텍스트. 중국 연구소 가격 수준으로 강력한 도구 호출(tool calling) 및 에이전트 워크플로(agentic workflows)를 제공합니다.

MiMo-V2.5-Pro (Xiaomi, 2026년 4월) — 총 1.02T, 활성 42B, 1M 컨텍스트, MIT 라이선스. Artificial Analysis 선정 에이전트 역량 부문 1위 오픈 소스 모델. 인간의 개입 없이(no human in the loop) 4.3시간의 무인 컴파일러 빌드 및 11시간의 비디오 에디터 제작 성능을 입증했습니다. 100만 토큰당 입력 $1. 장기적 소프트웨어 엔지니어링(long-horizon software engineering) 워크로드에 맞게 설계되었습니다.

경량 계층 (Lightweight Tier)

Claude Haiku 4.5 (Anthropic) — 라우팅(routing), 분류(classification), 단문 생성(short-form generation)에 빠르고 저렴하며 신뢰할 수 있습니다. 라우터 계층(router layer)을 위한 검증된 기본 모델입니다.

Gemini 3.1 Flash-Lite (Google) — 초당 363 토큰 출력 (이전 모델보다 45% 빠름), 100만 토큰당 입력 $0.25 / 출력 $1.50. 첫 토큰 생성 시간(time-to-first-token)이 중요한 지연 시간 민감형 UI, 의도 분류(intent classification), 대량 요약 작업에서 앞서 나갑니다.

DeepSeek-V4-Flash (DeepSeek) — 100만 토큰당 입력 $0.14 / 출력 $0.28. 이용 가능한 가장 저렴하고 적절한 경량 옵션입니다. 이 가격대에서는 다른 어떤 모델도 비용 측면에서 경쟁력을 갖추기 어렵습니다.

MiMo-V2-Flash (Xiaomi, 2025년 12월) — 총 파라미터 309B, 활성 파라미터 15B, 150 tokens/second, 256K 컨텍스트 (context). 100만 토큰당 입력 $0.10 / 출력 $0.30. 경량 비용으로 강력한 추론 (reasoning) 성능을 제공하며, SWE-Bench Verified에서 73.4%를 기록했습니다. 2026년 4월 기준, OpenRouter 전체 트래픽의 약 21%를 처리하고 있습니다.

Qwen3.5-9B (Alibaba) — TAU2-Bench 에이전트 점수 79.1, BFCL-V4 함수 호출 (function calling) 점수 66.1. 8GB VRAM에서 구동 가능합니다. 가장 강력한 로컬 배포 (local-deployment) 라우팅 모델이며, 개인정보 보호가 중요하거나 폐쇄망 (air-gapped) 환경을 위한 진지한 선택지입니다.

Hermes 에이전트를 위한 모듈-모델 매핑 (Module-to-Model Mapping)

모듈	프론티어 (Frontier) 옵션	밸런스 (Balanced) 옵션	경량 (Lightweight) 옵션	비고
웹 페이지 요약 (Web page summarization)	Gemini 3.1 Pro	Claude Sonnet 4.6, Gemini 3 Flash, Qwen3.5	DeepSeek-V4-Flash, MiMo-V2-Flash	비용/품질은 페이지 복잡도와 양에 따라 달라짐
...

심층 분석: 멀티 에이전트 오케스트레이션 (Multi-Agent Orchestration)

네 가지 프론티어 옵션은 모두 의미 있게 다른 아키텍처적 접근 방식을 취합니다:

Claude Opus 4.8 + 동적 워크플로우 (Dynamic Workflows) — 세션당 수백 개의 병렬 서브 에이전트 (subagents)를 활용하는 계획-실행-검증 (Plan-execute-verify) 사이클을 사용합니다. 오케스트레이터가 결과를 보고하기 전에 검증하는 구조화된 감독 워크플로우 (supervised workflows)에 가장 적합합니다. 정직성 (honesty) 개선을 통해, 무인 실행 (unattended runs) 시 잘못된 진행 상황을 보고할 가능성이 낮아졌습니다.

GPT-5.5 + OpenAI Agents SDK — 명확한 전문가 경계가 있는 감독/인계 (Supervisor/handoff) 패턴을 사용합니다. Terminal-Bench 2.0 (82.7%)에서 선두를 달리고 있어, 커맨드 라인 (command-line) 중심의 파이프라인에 가장 강력한 선택지입니다.

Kimi K2.6 + Agent Swarm — 300개의 도메인 특화 (domain-specialized) 서브 에이전트, 4,000개의 조정된 단계 (coordinated steps)로 구성되며, PARL (Parallel Agent Reinforcement Learning, 병렬 에이전트 강화학습)로 학습되었습니다. 많은 병렬 스레드로부터 조립된 완성된 결과물 (artifact)이 필요한 연구 합성 (research synthesis), 대규모 코드 마이그레이션 (code migrations), 문서 생성 (document generation)에 가장 적합합니다. Hermes Agent 프레임워크와 명시적으로 호환됩니다.

Gemini 3.5 Flash — 병렬 에이전트 실행 루프 (parallel agentic execution loops)에 최적화되어 있으며, MCP Atlas (83.6%)에서 선두를 달리고 있습니다. 단계별 지연 시간 (latency)이 중요한 경우에 가장 적합합니다. 10~20개 이상의 도구 호출 (tool calls)이 발생하는 에이전트 루프에서는 그 속도 우위가 크게 복리로 작용합니다.

심층 분석: 웹 페이지 요약 (Web Page Summarization)

고품질의 미묘한 차이가 있는 콘텐츠: Claude Sonnet 4.6 또는 Gemini 3.1 Pro. 두 모델 모두 모호하거나 구조가 잘 잡히지 않은 페이지를 능숙하게 처리합니다.

대규모 환경에서의 속도 및 비용: 대량의 파이프라인 (pipelines)에는 DeepSeek-V4-Flash ($0.14/M) 또는 MiMo-V2-Flash ($0.10/M)가 적합합니다. 해당 규모에서 지시 이행 (instruction-following) 정밀도가 중요하다면 Qwen3.5도 매력적인 선택지입니다.

매우 긴 페이지 (50K+ 토큰): MiniMax-M1 — 긴 시퀀스 (sequences)에서의 효율성 이점은 이 계층의 어떤 모델보다도 큽니다.

다국어 콘텐츠: Qwen3.5는 201개 언어를 네이티브로 지원합니다. Gemini 모델들 또한 다국어 성능이 강력합니다.

금융 또는 구조화된 데이터 페이지: Gemini 3.5 Flash는 Finance Agent v2 (57.9%)에서 선두를 달리고 있습니다. 금융 콘텐츠를 이 모델로 구체적으로 라우팅 (routing)할 가치가 있습니다.

구현 고려 사항

1. 모델뿐만 아니라 라우팅 (routing)에도 계층을 두십시오. "요약" 작업은 가벼울 수도 있고 (500단어 뉴스 기사), 균형 잡힌 작업일 수도 있습니다 (30페이지 기술 PDF). 먼저 분류한 다음 라우팅하십시오.

2. 라우터 (router)를 저렴하게 유지하십시오. 라우팅 결정 자체에는 비용이 거의 들지 않아야 합니다. 라우터 계층에는 DeepSeek-V4-Flash, MiMo-V2-Flash 또는 Qwen3.5-9B를 사용하십시오. 빠르고 일관된 것이 유일한 요구 사항입니다.

3. 첫날부터 데이터 거주성 (Data Residency) 문제를 처리하십시오. DeepSeek, Kimi, MiniMax, MiMo, 그리고 Qwen의 관리형 API (Managed APIs)는 중국 인프라를 통해 라우팅됩니다. 규제 대상 워크로드 (HIPAA, GDPR, SOC 2)의 경우, 이 모델들은 MIT 또는 Apache 2.0 라이선스 하에 오픈 웨이트 (Open Weights) 모델로 사용할 수 있습니다. 셀프 호스팅 (Self-hosting)은 거주성 문제를 해결하지만 운영 오버헤드 (Operational Overhead)를 증가시킵니다. Gemini는 EU 리전 옵션과 함께 Google Cloud를 통해 실행됩니다. Claude와 GPT는 확립된 엔터프라이즈 컴플라이언스 (Enterprise Compliance) 체계를 갖추고 있습니다.

4. 로컬 배포 옵션을 무시하지 마십시오. Qwen3.5-9B는 8GB VRAM에서 실행됩니다. Qwen3.6-27B는 24GB에서 실행됩니다. 에어갭 (Air-gapped), 엣지 (Edge), 또는 프라이버시가 중요한 사용 사례의 경우, Qwen 제품군은 모든 계층(Tier) 스펙트럼에 걸쳐 가장 강력한 로컬 배포 가능 옵션입니다.

5. 모델 선택 결정을 로그로 남기십시오. 품질이 저하되거나 비용이 급증할 경우, 어떤 라우팅 선택이 원인이 되었는지 추적해야 합니다. 모델 선택은 다른 시스템 이벤트만큼이나 관찰 가능 (Observable)해야 합니다.

6. 분기별로 재평가하십시오. 여기서 다룬 모든 연구소의 릴리스 주기 (Release Cadence)는 매우 빠릅니다. 라우팅 설정 (Routing Config)을 살아있는 문서 (Living Document)로 취급하십시오.

비용 참조 (Cost Reference)

모델	계층 (Tier)	입력 $/1M	출력 $/1M	주요 강점
Claude Opus 4.8	프론티어 (Frontier)	$5.00	$25.00	에이전트적 신뢰성 (Agentic reliability), 무인 실행
...

결론

가장 유능한 AI 에이전트는 모든 것을 가장 큰 모델로 실행하는 에이전트가 아닙니다. 어떤 모델이 어떤 작업을 처리할지 영리하게 결정하는 에이전트입니다.

경쟁 지형이 급격히 확장되었습니다. Google의 Gemini 제품군은 이제 모든 계층에서 강력한 경쟁자로 부상했으며, Gemini 3.5 Flash는 에이전트 작업에서 명목상의 "Flash" 위치를 뛰어넘는 성능을 보여줍니다. Alibaba의 Qwen 시리즈는 가장 강력한 다국어 능력과 로컬/엣지 배포를 위한 가장 신뢰할 수 있는 경로를 제공합니다. Xiaomi의 MiMo는 빠르게 등장하여 이미 실제 API 트래픽의 상당 부분을 처리하고 있습니다.