동일한 AI 모델이 6배 더 나은 성능을 낼 수 있는 이유

요약

동일한 AI 모델이라도 주변 시스템 아키텍처(Harness) 설계에 따라 성능이 최대 6배까지 차이 날 수 있음을 보여주는 연구 결과입니다. 프롬프트 튜닝보다 도구 오케스트레이션, 컨텍스트 관리, 오류 복구와 같은 시스템 구조 최적화가 더 강력한 레버리지를 제공합니다.

핵심 포인트

모델 자체보다 시스템 아키텍처가 성능 격차의 핵심 원인임
도구 호출 및 컨텍스트 관리 최적화로 비용 절감과 성능 향상 동시 달성 가능
에이전트의 도구 수를 줄여 결정 표면(Decision surface)을 단순화하는 것이 유리함
저렴한 모델도 최적화된 하네스를 통해 고가 모델보다 높은 성능을 낼 수 있음

Stanford 및 Tsinghua 논문은 올해 초 통제된 실험을 진행했습니다. 동일한 모델, 동일한 작업, 하지만 서로 다른 하네스 (Harness) 아키텍처를 사용했습니다.

결과는 다음과 같습니다. 모델 자체가 아닌, 모델
_주변_에 구축된 시스템에 의해 6배의 성능 격차가 발생했습니다.

이것은 프롬프트 엔지니어링 (Prompt Engineering)에 대한 통찰이 아닙니다. 이는 시스템 아키텍처 (Systems Architecture)에 대한 통찰이며, 개발자가 에이전트 시스템 (Agentic Systems)을 구축할 때 어디에 시간을 투자해야 하는지를 변화시킵니다.

6배의 격차

Meta-Harness는 TerminalBench-2에서 두 가지 하네스 구성으로 Claude Opus 4.6을 테스트했습니다. 유일한 변수는 스캐폴드 (Scaffold)였습니다. 즉, 도구 호출 (Tool calls), 컨텍스트 윈도우 (Context windows), 오류 복구 (Error recovery), 그리고 상태 지속성 (State persistence)을 관리하는 코드입니다.

한 버전은 기준점(Baseline) 점수를 기록했습니다. 반면, 구조화된 도구 오케스트레이션 (Tool orchestration)과 컨텍스트 관리 (Context management)를 적용한 다른 버전은 18.4점 더 높은 점수를 기록했습니다. 추론 비용 (Inference cost)은 동일했고, 모델도 동일했습니다. 아키텍처만 달랐을 뿐입니다.

이러한 패턴은 여러 독립적인 연구에서 반복적으로 나타납니다:

LangChain DeepAgents (2026): 동일한 GPT-5.2-Codex 모델을 사용했습니다. 하네스만 변경했을 뿐인데 순위가 상위 30위에서 상위 5위로 상승했습니다. 이는 13.7점의 이득입니다.

Can Bölük (Hashline, 2026): 동일한 모델, 동일한 작업입니다. 편집 도구 형식 (Edit tool format)을 변경했습니다. 성능이 6.7%에서 68.3%로 상승했습니다. 이는 토큰 (Tokens)을 61% 적게 사용하면서도 10배의 개선을 이룬 것입니다.

Vercel의 d0 agent: 하나의 프로덕션 에이전트(Production agent)가 16개의 도구를 가지고 있었습니다. 그중 14개를 제거하고 (bash만 남김) 성공률이 80%에서 100%로 올라갔습니다. 병목 현상 (Bottleneck)은 능력이 아니라 결정 표면 (Decision surface)이었습니다.

이것이 실무적으로 중요한 이유

최적화된 하네스를 사용한 가장 저렴한 Haiku 호출 (TerminalBench-2에서 37.6%)이 기본 하네스를 사용한 가장 비싼 Opus 호출 (58.0%)보다 성능이 뛰어났습니다. 심지어 추론 비용은 1/50 수준이었습니다.

대부분의 팀은 잘못된 계층(layer)에서 최적화를 진행하고 있습니다. 모델을 교체하고, 프롬프트를 튜닝하며, 검색(retrieval) 기능을 추가합니다. 하지만 구조적 레버리지(structural leverage)는 시스템이 도구 호출(tool calls)을 관리하고, 상태(state)를 처리하며, 실패로부터 복구하는 방식에 있습니다.

무엇이 변하는가

AI 에이전트(AI agents)를 구축하는 모든 이들을 위한 실질적인 교훈은 다음과 같습니다:

도구 접점(tool surface)을 감사하십시오. 에이전트가 호출할 수 있는 모든 도구는 에이전트가 내려야 하는 하나의 결정입니다. Vercel의 사례에 따르면, 도구의 수를 16개에서 1개로 줄였을 때 모든 지표가 개선되었습니다. 도구가 적을수록 더 나은 결정을 내립니다.
모델뿐만 아니라 하네스(harness)를 측정하십시오. 단순히 모델별 성능이 아니라, 하네스 구성(harness configuration)별 작업 완료율(task completion rate)을 추적하십시오. 성능을 6배나 변화시킨 변수는 바로 하네스였습니다.
비용은 모델이 아닌 아키텍처(architecture)에 따라 결정됩니다. 성능이 좋은 하네스를 갖춘 Haiku가 성능이 나쁜 하네스를 사용하는 Opus를 이겼습니다. 더 비싼 모델로 업그레이드하기 전에 하네스의 변형(variations)을 먼저 테스트하십시오.

전체 분석 내용(12개의 검증된 주장, 증거 테이블, 프로덕션 사례 연구 및 반증 기준 포함)은 Substack에서 확인하실 수 있습니다:

Harness Engineering: Same Model, Different Product →

이 분석은 Claude Code의 1,421라인 상태 머신(state machine), Codex CLI와 Claude Code의 아키텍처 비교(77.3% 대 65.4%, 4.2배의 토큰 효율성 차이), 그리고 이것이 왜 제4법칙(Law IV: 이론보다 도구) 및 제1법칙(Law I: 병목 현상의 이동)에 해당하는 구조적 전략인지를 다룹니다.

AI 인프라, 에이전트 아키텍처, 그리고 모델 성능을 실제로 결정짓는 시스템에 대한 주간 분석을 팔로우하세요.

AI 자동 생성 콘텐츠

원문 바로가기

동일한 AI 모델이 6배 더 나은 성능을 낼 수 있는 이유

요약

핵심 포인트

6배의 격차

이것이 실무적으로 중요한 이유

무엇이 변하는가

댓글