Microsoft의 자체 모델 MAI 7종, Copilot에서 사용할 수 있는 코딩 AI의 정체

VS Code의 GitHub Copilot에서 모델 선택을 열었을 때, 낯선 모델이 늘어난 것을 발견한 사람이 있을지도 모른다. MAI-Code-1-Flash.

GPT도 Claude도 Gemini도 아니다. Microsoft가 직접 처음부터 만든 코딩 모델이다.

6월 초 Microsoft Build 2026에서, 동사의 AI 부문(Microsoft AI)은 7개의 MAI 모델을 한꺼번에 발표했다. 추론, 코딩, 이미지, 전사(Transcription), 음성 합성 등 생성 AI의 주요 모달리티(Modality)를 거의 모두 자체적으로 갖춘 모양새다. 여기서 주목해야 할 점은 개별 성능도 중요하지만, "OpenAI의 모델을 사내 제품에組み込んで 사용하는" 입장이었던 Microsoft가 자체 모델로 같은 무대에 서려고 하는 움직임 그 자체에 있다. 본고에서는 발표 내용을 1차 소스로 대조하며, 엔지니어가 실제로 접하는 부분을 중심으로 정리한다.

7개 중 오늘 당신의 작업과 직접 관련이 있는 것은 이것이다. MAI-Code-1-Flash는 "활성 파라미터(Active Parameters) 50억 개"의 경량 코딩 모델로, 이미 VS Code의 GitHub Copilot 개인 사용자용으로 롤아웃(Rollout)이 시작되었다. 모델 피커(Model Picker)에 나타날 뿐만 아니라, Copilot이 자동으로 모델을 선택하는 auto picker의 후보에도 포함된다.

Microsoft가 대항마로 내세운 것은 Anthropic의 Claude Haiku 4.5이다. 동일 가격대의 "빠르고 저렴한" 코딩 모델이라는 포지션이 겹친다. 공식적으로 제공하는 비교표를 보면 차이를 알기 쉽다.

벤치마크	MAI-Code-1-Flash	Claude Haiku 4.5
SWE-Bench Pro	51.2%	35.2%
...

숫자의 의미를 보충하자면, SWE-Bench Pro는 실제 GitHub의 issue를 해결하게 하여 패치(Patch)가 통과되는지를 측정하는 벤치마크로, 코딩 에이전트(Coding Agent)의 실력에 가깝다. 여기서 15포인트 이상의 차이를 낸 것은 소형 모델로서는 솔직히 강력하다. 또한 Microsoft는 SWE-Bench Verified에서 "최대 60% 적은 토큰(Token)"으로 문제를 해결할 수 있다고 주장하고 있다. 토큰이 줄어들면 레이턴시(Latency)도 줄고 과금 금액도 낮아지므로, 대화형으로 에이전트를 돌리는 용도에서는 효과적일 것이다. 가격 자체는 "Haiku보다 저렴하다"고 되어 있으나, 구체적인 단가는 공식 릴리스에 명시되지 않았으므로 여기서는 숫자를 적지 않겠다.

사용 방법은 간단하며, VS Code의 채팅에서 모델 피커를 열어 선택하기만 하면 된다.

Copilot Chat → 모델 선택 → MAI-Code-1-Flash

플래그십 추론 모델은 MAI-Thinking-1이다. 발표 직후, Simon Willison 씨가 "35B 모델인데 Sonnet 4.6보다 선호되는 것은 인상적이다"라고 썼으나, 이는 성급한 판단이었다. MAI-Thinking-1은 활성 파라미터가 35B이며, 총 파라미터는 약 1조 개의 희소한 Mixture of Experts (MoE) 구성이다.

MoE는 거대한 모델 중에서 입력마다 일부의 "전문가(Expert)"만을 기동하는 메커니즘으로, 35B라는 것은 "1토큰을 처리할 때마다 실제로 움직이는 부분"의 크기를 가리킨다. 총량 1조의 모델을 매번 풀(Full)로 돌리는 것이 아니다. 따라서 "35B치고는 대단하다"라는 해석은 성립하지 않으며, 규모에 걸맞은 대형 모델로 보는 것이 옳다. 이런 식의 표기는 회사마다 차이가 있으므로, 활성(Active)인지 총수(Total)인지를 확인하는 습관을 들여야 숫자에 휘둘리지 않을 수 있다.

벤치마크는 자신만만하다. 수학 AIME 2025에서 97.0%, AIME 2026에서 94.5%. 소프트웨어 공학 SWE-Bench Pro에서는 "Claude Opus 4.6과 호각"이라고 하며, 1,276개 태스크에 대한 인간의 블라인드 평가에서는 Claude Sonnet 4.6보다 선호되었다고 한다. 컨텍스트(Context)는 256k 토큰으로, 600페이지 규모의 문서를 한 번에 전달할 수 있다. 현 시점에서는 Microsoft Foundry에서의 프라이빗 프리뷰(Private Preview) 제공 단계로, 누구나 바로 사용할 수 있는 것은 아니다.

나머지 4개인 이미지 생성 MAI-Image-2.5, 전사 MAI-Transcribe-1.5(43개 언어 대응), 음성 합성 MAI-Voice-2와 각각의 Flash 파생 모델도 동시에 발표되었다. 풀 라인업을 한꺼번에 내놓은 것 자체가 Microsoft의 "우리는 전부 자체적으로 할 수 있다"라는 선언이 되고 있다.

Microsoft가 이번 출시에서 반복해서 강조한 점은, 이 모델들을 "제3자 모델로부터의 증류 (distillation) 없이, 깨끗하고 추적 가능한 엔터프라이즈급 데이터로부터 처음부터 학습했다"는 점이다. 증류 (distillation)란 기존의 강력한 모델의 출력을 교사 데이터 (teacher data)로 삼아 다른 모델을 훈련하는 기법으로, OpenAI나 Anthropic의 모델에 의존하지 않고 처음부터 만들었다는 주장은 말 그대로 "OpenAI 의존으로부터의 자립"을 의미한다. 자사의 인프라와 액셀러레이터 (accelerator)로 구동했다는 점도 함께 내세우고 있다.

다만, 이 부분은 1차 소스(primary source) 내에서도 평가가 갈리는 지점이기도 하다. 당초 호의적으로 소개했던 Simon Willison 씨는 나중에 자신의 기사를 수정하며, 학습 데이터에 관한 "적절하게 라이선스가 확보된 데이터"라는 설명은 깊이 파고들면 액면 그대로 받아들일 수 없다고 다시 썼다. 그 자신도 "초보 보고 전에 더 조사했어야 했다"라고 인정했다. 즉, 벤치마크 (benchmark) 수치나 제공 형태는 확인할 수 있는 사실이지만, "깨끗한 데이터", "증류 없음"이라는 데이터 이력 (data lineage)에 대한 주장은 현시점에서는 검증이 따라가지 못하고 있으므로 유보가 필요하다는 것이 솔직한 견해다.

엔지니어 관점에서의 핵심 요약은 다음과 같다. 당장 이득을 보는 것은 GitHub Copilot 사용자이며, 경량 태스크용 선택지에 MAI-Code-1-Flash가 하나 추가되었다. Haiku 급의 속도 대역에서 SWE-Bench Pro 점수가 더 높고, 게다가 토큰 소비가 적다면 비용 최적화 관점에서 한 번 시도해 볼 가치가 있다. auto picker에 포함되어 있는 이상, 자신도 모르는 사이에 사용하고 있을 가능성도 있으므로 어떤 모델이 응답했는지는 확인해 두는 것이 좋다.

더 큰 구도로 보자면, 지금까지 OpenAI의 최대 고객이자 최대 투자자이기도 했던 Microsoft가 프론티어급 (frontier-class) 추론 모델을 자체적으로 보유하기 시작했다는 것이다. 멀티 프로바이더 (multi-provider)를 전제로 앱을 설계하고 있다면 선택지가 하나 늘어남과 동시에, 각 회사의 모델이 서로의 성능을 측정하는 재료도 늘어났다. 발표의 화려함에 휩쓸리기 전에, 데이터 이력처럼 검증이 미비한 주장은 분리해서 읽어야 한다. 이번 MAI는 그 선긋기를 실전에서 연습하게 해주는 좋은 교재이기도 하다.

Insights

Microsoft의 자체 모델 MAI 7종, Copilot에서 사용할 수 있는 코딩 AI의 정체

요약

핵심 포인트

댓글

AI와 클라우드 성장이 랠리를 견인하며 Amazon, 3조 달러 클럽 진입

Ripple, XRPL 성장을 위해 영국 기업 2곳 지원: XRP에 미치는 실제 영향은?

Tyson Foods, 소고기 공급 부족 지속에 따라 3분기 판매량 감소 및 손실 확대 예상

【Lean 최적화】 약 40분 걸리던 CI를 극적으로 개선한 이야기

AI와 클라우드 성장이 랠리를 견인하며 Amazon, 3조 달러 클럽 진입

Ripple, XRPL 성장을 위해 영국 기업 2곳 지원: XRP에 미치는 실제 영향은?

Tyson Foods, 소고기 공급 부족 지속에 따라 3분기 판매량 감소 및 손실 확대 예상

【Lean 최적화】 약 40분 걸리던 CI를 극적으로 개선한 이야기