Microsoft의 새로운 코딩 모델, 모든 벤치마크에서 Claude Haiku를 앞서다

Microsoft는 어제 MAI-Code-1-Flash를 출시했습니다. 이 새로운 코딩 모델은 토큰 사용량을 최대 60% 줄이면서도 모든 벤치마크(Benchmark)에서 Claude Haiku 4.5를 능가합니다. 이미 VS Code의 GitHub Copilot 사용자들에게 배포되고 있습니다. 올해 출시된 다른 코딩 모델들과 무엇이 다른지, 그리고 왜 "프로덕션 하네스 (production harness)" 학습 방식이 벤치마크 점수보다 더 중요한지 알아보겠습니다.

코딩 모델 경쟁의 판도가 바뀌었다

지난 1년 동안 빠른 코딩 모델 계층은 Anthropic의 Claude Haiku와 OpenAI의 GPT-4o-mini라는 두 플레이어의 게임이었습니다. 개발자들은 IDE 통합 및 개인적 선호도에 따라 하나를 선택했습니다. Copilot 사용자는 Haiku를, Cursor 사용자는 4o-mini를 선택했습니다.

Microsoft가 방금 세 번째 경쟁자를 판에 올렸습니다.

MAI-Code-1-Flash는 Microsoft가 자체적으로 엔드 투 엔드 (end-to-end) 학습시킨 첫 번째 코딩 특화 모델입니다. 이는 코딩 기능을 덧붙인 미세 조정 (fine-tuned) 범용 모델이 아닙니다. Superintelligence 팀은 깨끗하고 적절한 라이선스를 가진 데이터를 바탕으로 처음부터 구축하였으며, GitHub Copilot 프로덕션 하네스 (production harness) 내부에서 직접 학습시켰습니다.

그 결과: SWE-Bench Pro에서 Claude Haiku 4.5보다 16%포인트 높은 성능을 보였으며 (51.2% vs 35.2%), SWE-Bench Verified에서는 약 60% 적은 토큰을 소비합니다. 이는 점진적인 발전이 아니라, 단계적인 변화 (step change)입니다.

MAI-Code-1-Flash vs Claude Haiku 4.5 benchmark comparison

벤치마크 비교: MAI-Code-1-Flash는 4가지 코딩 벤치마크 모두에서 Claude Haiku 4.5를 능가하며 상당한 토큰 효율성 이득을 보여줌

코드 위에서만 학습된 것이 아닌, 프로덕션 하네스 내부에서의 학습

대부분의 코딩 모델은 동일한 전략을 따릅니다: 방대한 코드 코퍼스 (code corpus)에서 사전 학습 (pretrain)하고, 지시 데이터 (instruction data)로 미세 조정 (fine-tune)하며, HumanEval 또는 SWE-Bench에서 평가한 뒤 출시합니다.

Microsoft는 MAI-Code-1-Flash를 통해 다른 경로를 택했습니다. 벤치마크 점수를 목표로 삼는 대신, 개발자들이 매일 사용하는 것과 동일한 툴링(tooling), 에이전트 워크플로우(agentic workflows), 시스템 프롬프트(system prompts)가 포함된 GitHub Copilot 프로덕션 하네스(production harness) 내부에서 모델을 직접 학습시켰습니다.

이는 세 가지 측면에서 중요합니다:

도구 상호작용이 일급 시민(first-class)입니다. 모델은 주변 도구들—파일 시스템(file systems), 터미널(terminals), 린터(linters)—과 함께 작동하는 법을 사후 고려 사항이 아닌, 개발자가 하는 방식 그대로 학습했습니다. 이는 모델이 파일을 읽고, 명령어를 실행하며, 출력값을 반복 개선해야 하는 에이전트 코딩(agentic coding) 작업에서 특히 중요합니다.
평가가 프로덕션을 반영합니다. 학습 과정에서 Microsoft는 실제 Copilot 텔레메트리(telemetry)를 통해 체크포인트(checkpoints)를 평가했습니다: 저장소 Q&A, 다중 파일 리팩토링(multi-file refactoring), 그리고 실제 Copilot 하네스를 통해 실행되는 SWE-Bench 작업 등이 포함됩니다. 평가 루프(evaluation loop)가 프로덕션 루프(production loop)와 일치하기 때문에, 오프라인에서의 개선이 실제 세계의 품질로 이어집니다.
벤치마크 게임(benchmark gaming)이 없습니다. 모델의 학습 데이터에 벤치마크 문제가 유출되면 점수는 부풀려지지만 실제 성능은 향상되지 않습니다. 모델이 학습하지 않은 문제들을 대상으로 하네스 내에서 평가하는 Microsoft의 접근 방식은 벤치마크 수치가 더 정직하다는 것을 의미합니다.

MAI-Code-1-Flash training and inference architecture

학습 파이프라인(Training pipeline): MAI-Code-1-Flash는 GitHub Copilot 프로덕션 하네스 내부에서 학습 및 평가되며, 이를 통해 학습 개선 사항과 실제 개발자 경험 사이에 긴밀한 피드백 루프를 생성합니다.

적응형 사고(Adaptive Thinking): 60% 적은 토큰이 중요한 이유

토큰 수(Token count)는 단순히 과시용 지표가 아닙니다. 모든 토큰은 지연 시간(latency), 연산(compute), 그리고 비용을 발생시킵니다. 특히 모델이 작업당 수십 개의 응답을 생성하는 대화형 코딩 세션에서는 더욱 그러합니다.

MAI-Code-1-Flash는 **적응형 솔루션 길이 제어 (adaptive solution length control)**를 사용합니다. 이는 모델이 문제의 복잡도에 따라 응답의 깊이를 조절하도록 학습시키는 훈련 기법입니다. 단순한 이름 변경 및 리팩토링 (rename-refactor) 요청에는 간결한 답변을 제공하고, 다중 파일 아키텍처 변경에는 더 깊은 추론 (reasoning)을 수행합니다.

실제 적용 사례에서의 적응형 사고 (adaptive thinking)는 다음과 같습니다:

작업 유형	Claude Haiku 4.5	MAI-Code-1-Flash
단순 리팩토링 (변수 이름 변경)	~200 토큰 (tokens)	~80 토큰 (tokens)
...

이 패턴은 일관적입니다. MAI-Code-1-Flash는 정확성을 희생하지 않으면서도 더 짧고 목표에 집중된 응답을 생성합니다. 이는 모델이 "게으른" 것이 아니라, 정답이 명확할 때 불필요한 상용구 (boilerplate)에 토큰을 낭비하지 않는 것을 의미합니다.

개발자들에게 이는 다음과 같은 의미를 갖습니다:

낮은 지연 시간 (Lower latency). 생성할 토큰이 적을수록 응답 속도가 빨라집니다. 대화형 코딩에서는 응답당 500ms와 1.2초의 차이가 세션 전체에 걸쳐 누적됩니다.
저렴한 추론 (Cheaper inference). Microsoft는 아직 가격을 발표하지 않았지만, 토큰 비용이 Haiku와 동일하다면 작업당 실질 비용은 40-60% 감소합니다.
스크롤 감소 (Less scrolling). 간결한 응답은 실제 해결책을 찾기 위해 장황한 AI 출력물을 파싱하는 데 드는 시간을 줄여줍니다.

실제로 중요한 4가지 벤치마크 (Benchmarks)

Microsoft는 동일한 Copilot 프로덕션 하네스 (production harness)를 통해 네 가지 벤치마크에서 MAI-Code-1-Flash를 Claude Haiku 4.5와 비교 평가했습니다:

SWE-Bench Verified (500개의 실제 GitHub 이슈). 코딩 모델의 골드 표준 (gold standard)입니다. MAI-Code-1-Flash는 훨씬 적은 토큰을 사용하면서도 더 높은 점수를 기록했으며, 이는 효율성과 정확성이 상충 관계 (trade-off)가 아님을 입증합니다.

SWE-Bench Pro (더 어렵고 다양한 작업). 격차가 가장 극적으로 벌어지는 지점입니다: 51.2% 대 35.2%. SWE-Bench Pro는 단순한 모델들이 실수하기 쉬운 다중 파일 변경, 복잡한 로직, 그리고 엣지 케이스 (edge cases)를 포함합니다.

SWE-Bench Multilingual. 실제 세계의 코드가 모두 Python인 것은 아닙니다. 이 벤치마크는 개발자들이 실제 프로덕션 환경에서 사용하는 언어인 JavaScript, TypeScript, Go, Rust, 그리고 Java를 대상으로 테스트합니다.

Terminal Bench 2. 모델이 터미널을 직접 제어하는 에이전트 기반 코딩 작업 (Agentic coding tasks)입니다. 이는 Copilot의 에이전트 모드 (agent mode)가 실제로 작동하는 방식과 가장 유사한 대리 지표입니다.

네 가지 벤치마크 모두에서 보여준 일관성이 이번 결과의 핵심입니다. 어떤 모델들은 Python에서는 잘 작동하지만 TypeScript에서는 무너집니다. 어떤 모델들은 SWE-Bench Verified에서는 높은 점수를 받지만 에이전트 기반 작업 (agentic tasks)에서는 무너집니다. MAI-Code-1-Flash는 모든 평가에서 선두를 달리고 있으며, 이는 특정 지표만을 골라낸 결과 (cherry-picked wins)가 아닙니다.

개발자들에게 이것이 의미하는 바

GitHub Copilot을 사용하는 경우, 곧 모델 선택기 (model picker)에서 MAI-Code-1-Flash를 볼 수 있을 것입니다. Microsoft는 개인 사용자에게 먼저 출시할 예정이며, 자동 선택기 (auto picker)가 코딩 작업을 위해 이를 기본값으로 사용할 것이라고 밝혔습니다. 기업용 (Enterprise) 사용자는 몇 주 뒤에 뒤따를 것으로 보입니다.

코딩 에이전트 (coding agents)를 구축하는 경우, 프로덕션 하네스 (production harness) 접근 방식이 얻어야 할 교훈입니다. 사용자가 상호작용하는 것과 동일한 툴링 (tooling) 내부에서 모델을 학습시키는 것은, 고립된 벤치마크를 최적화하는 것보다 더 긴밀한 피드백 루프 (feedback loop)를 생성합니다. Microsoft가 이 하네스 평가 방법론 (harness evaluation methodology)을 오픈 소스로 공개한다면 에이전트 구축 생태계에 큰 선물이 될 것입니다.

비용을 중요하게 생각하는 경우, 적응형 사고 (adaptive thinking)가 변화를 만들어낼 핵심 기능입니다. 대부분의 코딩 세션은 2,000 토큰의 응답을 필요로 하지 않습니다. 언제 간결하게 답변해야 할지를 아는 모델은 대규모 환경에서 실제로 비용을 절감해 줍니다.

모델을 벤치마킹하는 경우, SWE-Bench 점수를 개별적으로만 취급하는 것을 멈추십시오. 토큰 효율성 (Token efficiency)은 정확도만큼이나 중요합니다. 500 토큰으로 51%의 점수를 기록하는 모델이 1,200 토큰으로 53%를 기록하는 모델보다 — 특히 대화형 워크플로 (interactive workflows)에서 — 진정으로 더 유용합니다.

더 큰 그림: Microsoft의 AI 스택 (AI Stack)

MAI-Code-1-Flash는 단독으로 출시되는 것이 아닙니다. 이는 Microsoft의 초지능 (Superintelligence) 팀이 추진하는 더 광범위한 움직임의 일부입니다:

MAI-Thinking-1 — 복잡한 문제 해결을 위한 중간급 추론 모델 (mid-weight reasoning model)
MAI-Image-2.5 — 이미지 생성 및 편집 (Arena에서 2위 기록)
MAI-Transcribe-1.5 — 50개 이상의 언어를 지원하는 음성-텍스트 변환 (speech-to-text)
Microsoft Scout — 함께 출시된 OpenClaw에서 영감을 받은 개인용 비서

이는 Microsoft가 파운데이션 모델 (foundation models), 개발자 도구 (Copilot, VS Code), 클라우드 인프라 (Azure), 그리고 소비자용 앱 (Scout)을 아우르는 수직 계열화된 AI 스택 (vertically integrated AI stack)을 구축하고 있음을 보여줍니다. MAI 제품군은 기존에 Microsoft가 OpenAI로부터 공급받았던 모델 계층 (model layer)을 채우게 됩니다.

핵심 요약 (Key Takeaways)

MAI-Code-1-Flash가 4개의 코딩 벤치마크 모두에서 Claude Haiku 4.5를 능가하며, SWE-Bench Pro에서 16포인트 차이(51.2% vs 35.2%)로 앞섰습니다.
SWE-Bench Verified에서 토큰 사용량 60% 감소 — 더 높은 정확도와 효율성이 더 이상 트레이드오프 (trade-off) 관계가 아닙니다.
단순한 코드 데이터셋뿐만 아니라 Copilot 프로덕션 하네스 (production harness) 내부에서 학습 — 도구 상호작용 (tool interaction) 및 에이전트 워크플로 (agentic workflows)가 일급 시민 (first-class)으로 취급됩니다.
**적응형 사고 (Adaptive thinking)**를 통해 작업 복잡도에 따라 응답 길이를 조정하여 지연 시간 (latency)과 비용을 절감합니다.
현재 VS Code의 GitHub Copilot 개인 사용자들에게 순차적으로 배포 중입니다.
Microsoft의 더 넓은 MAI 제품군의 일부 — 이들은 단순히 모델 하나를 만드는 것이 아니라 수직 계열화된 AI 스택을 구축하고 있습니다.

코딩 모델 전쟁이 훨씬 더 흥미로워졌습니다. 그리고 개발자들에게 이는 매우 좋은 소식입니다.

Microsoft의 새로운 코딩 모델, 모든 벤치마크에서 Claude Haiku를 앞서다

요약

핵심 포인트

Microsoft의 새로운 코딩 모델, 모든 벤치마크에서 Claude Haiku를 앞서다

코딩 모델 경쟁의 판도가 바뀌었다

코드 위에서만 학습된 것이 아닌, 프로덕션 하네스 내부에서의 학습

적응형 사고(Adaptive Thinking): 60% 적은 토큰이 중요한 이유

실제로 중요한 4가지 벤치마크 (Benchmarks)

개발자들에게 이것이 의미하는 바

더 큰 그림: Microsoft의 AI 스택 (AI Stack)

핵심 요약 (Key Takeaways)

댓글