본문으로 건너뛰기

© 2026 Molayo

Dev.to헤드라인2026. 06. 04. 20:36

Microsoft, MAI-Thinking-1 공개: 1T MoE 모델 내 35B 활성 파라미터로 AIME 2025에서 97% 달성

요약

Microsoft가 1T MoE 아키텍처 기반의 추론 모델 MAI-Thinking-1을 공개했습니다. 이 모델은 35B의 활성 파라미터로 AIME 2025에서 97%라는 압도적인 수학 성능을 기록하며, 반복적 개선을 위한 '힐 클라이밍' 파이프라인을 통해 학습되었습니다.

핵심 포인트

  • 1T MoE 구조 내 35B 활성 파라미터 사용
  • AIME 2025 수학 벤치마크 97% 달성
  • 증류 없이 30T 인간 생성 토큰으로 사전 학습
  • 데이터-학습-보상을 통합한 힐 클라이밍 파이프라인 도입

Microsoft의 MAI-Thinking-1은 1T MoE (Mixture-of-Experts) 모델 내 35B 활성 파라미터를 사용하여, 증류 (distillation) 없이 30T 인간 토큰으로 학습되어 AIME 2025에서 97%를 기록했습니다.

Microsoft는 AIME 2025에서 97%를 기록한 35B 활성 파라미터 추론 모델인 MAI-Thinking-1을 공개했습니다. 이 모델은 Microsoft가 '힐 클라이밍 머신 (hill-climbing machine)'이라 부르는 프로세스의 첫 번째 결과물로, 추론 모델을 반복적으로 개선하기 위한 폐쇄 루프 (closed-loop) 파이프라인입니다.

주요 사실

  • MAI-Thinking-1: 35B 활성, 1T 총 MoE 파라미터.
  • AIME 2025 수학 벤치마크에서 97.0% 달성.
  • LiveCodeBench v6 코딩 벤치마크에서 87.7% 달성.
  • SWE-Bench Pro 소프트웨어 엔지니어링 벤치마크에서 52.8% 달성.
  • 30T 개의 인간 생성 토큰으로 처음부터 학습됨.

Microsoft는 1조 개의 총 파라미터를 가진 MoE (Mixture-of-Experts) 아키텍처 내에 350억 개의 활성 파라미터를 보유한 추론 모델인 MAI-Thinking-1을 도입했습니다. 이 모델은 AIME 2025에서 97.0%, LiveCodeBench v6에서 87.7%, SWE-Bench Pro에서 52.8%를 달성했으며, 이는 활성 파라미터 수 대비 매우 강력한 점수입니다 [@rohanpaul_ai에 따르면].

힐 클라이밍 파이프라인 (The Hill-Climbing Pipeline)

Microsoft AI Unveils MAI-Image-1 Ranked 9 on LMArena | by Darsh Dar…

Microsoft는 MAI-Thinking-1을 '힐 클라이밍 머신 (hill-climbing machine)'이라 부르는 체계적인 프로세스의 첫 번째 출시작으로 정의합니다. 이 파이프라인은 데이터 생성, 학습 설정, 보상 설계 (reward design), 안전 테스트 및 평가를 하나의 반복적인 루프로 통합합니다. 이는 Microsoft가 각 사이클의 출력을 다음 학습 실행에 다시 피드백함으로써 점점 더 유능한 추론 모델을 출시할 계획임을 시사합니다.

기본 모델은 주로 인간이 생성한 30조 개의 토큰을 사용하여 처음부터 학습되었습니다. Microsoft는 사전 학습 (pre-training) 과정에서 제3자 모델로부터의 증류 (distillation)를 피했다고 명시적으로 밝혔습니다. 이는 프런티어 모델 (frontier models)의 합성 데이터 (synthetic data)에 의존하는 업계 상황을 고려할 때 주목할 만한 주장입니다.

성능 및 아키텍처 (Performance and Architecture)

qihoo360/TinyR1-32B-Preview · impressive perfor…

MAI-Thinking-1은 강화학습 (Reinforcement Learning)을 사용하여 수학적 추론 (Math Reasoning), 코딩 (Coding), 도구 사용 (Tool Use), 유용성 (Helpfulness) 및 안전성 (Safety)을 학습합니다. MoE (Mixture of Experts) 설계는 토큰당 35B(350억 개)의 파라미터만 활성화하여, 1T(1조 개) 파라미터 시스템의 표현 능력 (Representational Capacity)을 유지하면서도 추론 비용 (Inference Costs)을 35B 밀집 모델 (Dense Model)에 가깝게 유지합니다.

독특한 점은 Microsoft가 이를 일회성 모델이 아닌 재현 가능한 프로세스로 포지셔닝하고 있다는 것입니다. 만약 힐 클라이밍 머신 (Hill-climbing machine)이 사이클당 일관된 이득을 제공한다면, Microsoft는 모델당 총 컴퓨팅 비용 (Compute Spend)을 OpenAI나 Anthropic 수준으로 맞출 필요 없이 추론 벤치마크 (Reasoning Benchmarks)에서 그들과의 격차를 줄일 수 있습니다. 즉, 체크포인트 (Checkpoint)가 아닌 파이프라인 (Pipeline) 자체가 해자 (Moat)가 되는 것입니다.

주목해야 할 점 (What to watch)

향후 6~12개월 내에 출시될 Microsoft의 힐 클라이밍 파이프라인의 다음 모델을 주목하십시오. 또한 AIME 및 SWE-Bench Pro 점수가 5점 이상 향상되는지 확인해야 합니다. 아울러 Microsoft가 파이프라인 아키텍처 (Pipeline Architecture)를 상세히 설명하는 논문을 발표하는지도 추적해야 합니다. 논문이 없다는 것은 프로세스 자체가 영업 비밀 (Trade Secret)임을 시사하기 때문입니다.

[ 03 Jun via simon_willison 에 의해 업데이트됨]

[Simon Willison에 따르면] 출시와 함께 제공된 기술 논문은 MAI-Thinking-1이 1.2조 페이지의 독점적 웹 크롤 (Proprietary Web Crawl) 데이터로 학습되었음을 밝히고 있습니다. 이 데이터는 성인 콘텐츠, 저작권 침해 및 AI 생성 텍스트를 제거하기 위해 UT1 차단 목록 (Block List)과 독점적인 AI 콘텐츠 탐지 모델을 사용하여 7940억 페이지로 필터링되었습니다. 또한 논문은 유사한 필터링 및 중복 제거 (Deduplication) 과정을 거친 Common Crawl이 242억 페이지를 기여했다고 상세히 설명하며, 이는 Microsoft가

AI 자동 생성 콘텐츠

본 콘텐츠는 Dev.to AI tag의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0