MAI-Thinking-1: Microsoft의 새로운 추론 모델과 개발자에게 미치는 영향

Microsoft가 자사의 첫 번째 자체 개발 추론 모델(reasoning model)인 MAI-Thinking-1을 출시했습니다. AI 분야를 지켜봐 오셨다면, "답변하기 전에 생각하는" 방식의 추론 모델들이 하나의 격전지가 되었다는 것을 알고 계실 것입니다. OpenAI에는 o3가 있고, Anthropic에는 확장된 사고(extended thinking) 기능을 갖춘 Claude가 있으며, Google에는 Gemini의 사고 모드(thinking mode)가 있습니다. 이제 Microsoft도 자신들만의 모델을 들고 참전했으며, 다른 모델을 라이선스하거나 증류(distillation)하는 대신 처음부터 직접 구축했습니다.

개발자로서 실제로 알아야 할 내용은 다음과 같습니다.

MAI-Thinking-1이란 무엇인가?

MAI-Thinking-1은 Microsoft의 내부 AI 연구소(Microsoft AI, 또는 MAI)에서 개발한 추론 중심 언어 모델(language model)입니다. 이 모델은 복잡하고 다단계적인 작업(multi-step tasks)을 위해 특별히 설계된 중간 규모(medium-sized) 모델입니다. 즉, 단순히 응답 패턴을 매칭하는 것이 아니라, 답변을 내놓기 전에 여러 단계를 거쳐 추론해야 하는 종류의 문제들을 해결하기 위한 모델입니다.

핵심적인 포지셔닝은 다음과 같습니다. 소프트웨어 엔지니어링 및 수학 벤치마크(benchmarks)에서 체급을 훨씬 뛰어넘는 성능을 보여주는 작은 규모의 모델이라는 점입니다.

아키텍처: 희소 전문가 혼합 (Sparse Mixture of Experts)

이 모델은 **희소 전문가 혼합 (Sparse Mixture of Experts

벤치마크 (Benchmark)	MAI-Thinking-1	비고 (Notes)
AIME 2025	97.0%	고급 수학 경시 대회
...

SWE-Bench Pro 결과는 자세히 살펴볼 가치가 있습니다. SWE-Bench는 실제 GitHub 이슈를 통해 모델을 테스트합니다. 즉, 모델이 코드베이스를 읽고, 버그 리포트를 이해하며, 기존 테스트 스위트(test suite)를 통과하는 패치(patch)를 생성해야 합니다. 이는 현재 존재하는 벤치마크 중 개발자에게 가장 관련성이 높은 벤치마크라고 할 수 있습니다. 훨씬 적은 활성 파라미터(active parameters)로 구동되면서 이 벤치마크에서 Claude Opus 4.6과 대등한 성능을 보여준 것은 의미 있는 결과입니다.

인간 선호도 평가 (human preference eval)는 Surge의 전문 평가자들이 판단한 단일 턴(single-turn) 및 다중 턴(multi-turn) 대화 전반에 걸친 1,276개의 태스크를 다루었으며, 응답이 단순히 듣기 좋게 들리는지보다는 실제로 사용자의 목표를 진전시켰는지에 우선순위를 두었습니다.

다른 모델과 차별화되는 점: 훈련 철학 (Training Philosophy)

Microsoft는 모델의 동작 방식에 영향을 미치기 때문에 이해할 가치가 있는 의도적인 선택을 했습니다.

제3자 모델로부터의 증류 (No distillation from third-party models). 대부분의 소형 모델은 더 크고 유능한 모델을 모방하도록 학습함으로써 훈련됩니다 (이를 증류 또는 지식 증류 (knowledge distillation)라고 합니다). MAI-Thinking-1은 이를 수행하지 않고 훈련되었습니다. Microsoft는 증류된 모델이 근본적으로 스승 모델(teacher model)의 설계 선택에 얽매여 있으며 새로운 상황에 일반화(generalize)하는 데 어려움을 겪는다고 주장합니다. 자체 데이터로 처음부터(from scratch) 훈련한다는 것은 모델이 추론을 흉내 내는 것이 아니라 진정으로 추론하는 법을 배워야 함을 의미합니다.

깨끗하고 라이선스가 확보된 훈련 데이터만 사용 (Clean, licensed training data only). 모든 사전 훈련 (pre-training) 데이터는 상업적 라이선스를 보유하고 있으며, AI가 생성한 콘텐츠는 사전 훈련에서 제외되었습니다. 기업들에게 이는 매우 중요한 사항입니다. 이는 저작권 노출에 영향을 미치며, Microsoft가 모델의 동작을 더 잘 설명하고(및 개선할) 수 있는 능력을 부여합니다.

엔드 투 엔드 (End-to-end) 자체 개발 훈련 인프라. Microsoft 자체 가속기(accelerators)에 대한 하드웨어 공동 설계(hardware co-design)부터 강화학습 (reinforcement learning) 프레임워크에 이르기까지, 전체 훈련 스택이 내부적으로 구축되었습니다. 이것이 그들이 말하는 "Hill-Climbing Machine"입니다. 즉, 모든 구성 요소를 독립적으로 개선할 수 있어, 아키텍처를 완전히 재설계할 필요 없이 성능이 지속적으로 향상되는 시스템을 의미합니다.

개발자 관련 기능

API 호출을 고려하기 전에, 다음과 같은 기능 세트를 확인하십시오.

컨텍스트 윈도우 (Context window): 256,000 토큰. 이는 대략 600페이지 분량의 텍스트입니다. 전체 코드베이스, 대규모 계약서 또는 긴 연구 문서를 단일 컨텍스트에 담을 수 있습니다. 에이전트 기반 코딩 워크플로 (agentic coding workflows)를 위해서는 이것이 필수적입니다.

함수 호출 (Function calling) / 도구 사용 (tool use). 지원됩니다. API를 호출하거나, 데이터베이스를 쿼리하거나, 외부 서비스와 상호 작용해야 하는 에이전트를 구축하는 경우, 모델은 표준 형식에 따라 구조화된 도구 호출을 처리할 수 있습니다.

시스템 프롬프트 (System prompt) / 개발자 지침 (developer instructions). 이 모델은 다층 지침 (multi-layer instructions)을 따르도록 훈련되었습니다. 즉, 시스템 프롬프트, 사용자 지침 및 제약 조건이 계층적으로 쌓이고 예측 가능하게 상호 작용하며, 모델이 하나를 위해 다른 하나를 묵인하며 무시하는 일이 발생하지 않습니다.

Chat Completions API 호환성. 이는 매우 중요합니다. 이 API는 널리 채택된 OpenAI Chat Completions 형식과 동일한 인터페이스를 사용합니다. 이미 Azure OpenAI 또는 기타 OpenAI 호환 엔드포인트를 호출하는 코드가 있다면, 마이그레이션 시 모델 이름과 엔드포인트 URL을 교체하는 것만으로 최소한의 변경만 필요할 것입니다.

Microsoft Foundry를 통한 엔터프라이즈 보안. 모든 MAI 모델은 Microsoft Foundry의 컴플라이언스 스택(compliance stack)을 제공합니다: 데이터 거주성 제어 (data residency controls), 감사 로깅 (audit logging), 프라이빗 네트워킹 옵션 등입니다. 규제 산업에서 개발 중이라면, 이것이 필요한 컴플라이언스 서류를 확보할 수 있는 경로가 될 것입니다.

설정 방식 (사용 가능 시점)

이 모델은 Chat Completions API와 호환되므로, Foundry 액세스 권한을 얻은 후 호출하는 방식은 다음과 같습니다. 패턴은 기본적으로 Azure OpenAI를 호출하는 방식과 동일합니다:

import openai

client = openai.AzureOpenAI(
...

이미 Azure OpenAI SDK 또는 기타 OpenAI 호환 클라이언트를 사용 중이라면, 마이그레이션(Migration)의 형태는 다음과 같습니다. 주요 차이점은 엔드포인트 URL(Endpoint URL)과 모델 이름(Model name)이며, 나머지 코드는 그대로 유지됩니다.

도구 호출(Tool calling)을 사용하는 에이전트 워크플로(Agentic workflows)의 경우:

tools = [
    {
        "type": "function",
...

MAI-Thinking-1이 귀하의 스택에서 차지하는 위치

이 모델을 추적할 가치가 있는지 결정하려는 경우, 사용 사례별 실질적인 분석은 다음과 같습니다:

에이전트 기반 코딩 파이프라인 (Agentic coding pipelines). 이것이 주요 타겟 사용 사례입니다. 이 모델은 실제 테스트 스위트(Test suites)가 포함된 결정론적(Deterministic)이고 실행 가능한 환경에서 학습되었습니다. 코드를 읽고, 수정하고, 테스트를 실행하며, 실패로부터 복구하는 다단계 루프(Multi-step loop)를 위해 구축되었습니다. AI 기반 코드 리뷰, 버그 수정 또는 코드 생성 파이프라인을 구축하고 있다면, 이 모델을 평가해 볼 가치가 있습니다.

복잡한 추론 작업 (Complex reasoning tasks). AIME 점수는 수학 및 과학적 추론 분야에서 이 모델을 최상위권에 위치시킵니다. 귀하의 애플리케이션이 금융 모델링, 기술 분석, 종합적인 연구 요약과 같이 다단계 문제 해결을 포함한다면, 이와 같은 추론 모델(Reasoning model)이 지시어 튜닝된 모델(Instruction-tuned models)보다 뛰어난 성능을 발휘할 것입니다.

기업용 문서 처리 (Enterprise document processing). 256k의 컨텍스트 윈도우(Context window)와 라이선스 출처(Licensing provenance)에 대한 신뢰성은 지식재산권(IP) 노출과 컴플라이언스(Compliance)가 실제적인 우려 사항인 계약서, 기술 문서 또는 대규모 코드베이스를 처리하는 기업들에게 신뢰할 수 있는 옵션이 됩니다.

대량의 일일 워크플로우 (High-volume daily workflows). MoE (Mixture-of-Experts) 아키텍처와 중간급 가격 책정(mid-weight pricing)은 이 모델을 프론티어급 비용 모델(frontier-cost models)보다 낮은 위치에 자리 잡게 합니다. 강력한 추론(reasoning)의 혜택을 받을 수 있지만, 모든 요청에 대해 완전한 밀집형 프론티어 모델(full dense frontier model)을 실행하는 비용을 정당화할 수 없는 유스케이스(use case)가 있다면, 이것이 바로 Microsoft가 목표로 하는 가성비의 최적 지점(sweet spot)입니다.

안전 접근 방식 (그리고 이것이 개발자에게 중요한 이유)

Microsoft는 이해할 가치가 있는 흥미로운 안전(safety) 공학적 결정을 내렸습니다.

안전을 사후 필터(post-hoc filter)나 별도의 미세 조정(fine-tuning) 단계로 취급하는 대신, 이들은 능력(capability)과 동일한 강화학습 (RL) 루프를 통해 안전을 학습시켰습니다. 안전하지 않은 준수(compliance)와 불필요한 과잉 거부(over-refusals)는 모두 잠재적 위해 심각도에 따라 가중치가 부여된 동일한 보상 모델 (reward model) 내에서 결함으로 처리됩니다.

실질적인 효과: 모델이 실제로 해로운 요청은 거절하면서도, 정당한 개발자 요청(네트워킹, 보안 개념, 시스템 관리와 관련된 코드 작성 등)을 거부하는 상황은 줄어들 것입니다. Microsoft는 불필요한 거부를 안전한 기본값(safe default)이 아닌 실패 모드(failure mode)라고 명시적으로 부릅니다.

개발자들에게 이는 과도하게 조심스러운 모델을 우회하기 위해 시스템 프롬프트(system prompts)를 작성하는 데 소비되는 시간이 줄어듦을 의미합니다.

주목해야 할 사항

이 모델이 공개 미리보기(public preview)로 전환됨에 따라 주의 깊게 살펴봐야 할 몇 가지 사항이 있습니다:

가격 (Pricing). 아직 공개적으로 발표되지 않았습니다. "중간급(mid-weight)" 포지셔닝은 프론티어 모델 가격보다 유의미하게 낮은 수준임을 시사하지만, 실제 수치가 SWE-Bench Pro 성능이 기존 워크플로우에서 전환할 가치가 있는지를 결정할 것입니다.

지역 가용성 (Regional availability). Microsoft Foundry는 멀티 리전 배포를 지원하지만, 출시 시점에 어떤 특정 Azure 리전에서 MAI-Thinking-1을 사용할 수 있는지는 일부 유스케이스의 지연 시간(latency) 및 데이터 거주성(data residency) 요구 사항에 영향을 미칠 것입니다.

속도 제한 및 할당량 (Rate limits and quota). 비공개 미리보기(Private previews)는 일반적으로 처리량(throughput)이 제한됩니다. 운영 계획은 공개 미리보기 수치가 나올 때까지 기다려야 합니다.

빠른 참조 (Quick Reference)


Model type	희소 전문가 혼합 모델(Sparse Mixture of Experts, MoE) (추론용)
...

링크 (Links)

모델 페이지: microsoft.ai/models/mai-thinking-1
기술 논문: PDF

MAI-Thinking-1: Microsoft의 새로운 추론 모델과 개발자에게 미치는 영향

요약

핵심 포인트

MAI-Thinking-1이란 무엇인가?

아키텍처: 희소 전문가 혼합 (Sparse Mixture of Experts)

다른 모델과 차별화되는 점: 훈련 철학 (Training Philosophy)

개발자 관련 기능

설정 방식 (사용 가능 시점)

MAI-Thinking-1이 귀하의 스택에서 차지하는 위치

안전 접근 방식 (그리고 이것이 개발자에게 중요한 이유)

주목해야 할 사항

빠른 참조 (Quick Reference)

빠른 참조 (Quick Reference)

링크 (Links)

댓글