arXiv논문2026. 06. 01. 11:30

Mellum2 기술 보고서

요약

Mellum 2는 소프트웨어 엔지니어링에 특화된 12B 규모의 오픈 웨이트 MoE 언어 모델입니다. 2.5B의 활성 파라미터만 사용하여 효율적인 추론이 가능하며, 코드 생성, 다단계 추론, 도구 사용 능력이 뛰어납니다.

핵심 포인트

64개 전문가 중 8개를 사용하는 MoE 아키텍처 채택
128K 컨텍스트 창과 Multi-Token Prediction 헤드 적용
코드, 수학, 추론에 최적화된 3단계 커리큘럼 사전 학습
Instruct 및 추론 과정을 출력하는 Thinking 모델 제공

우리는 토큰당 2.5B의 활성 파라미터(active parameters)를 가진 12B 파라미터 규모의 오픈 웨이트(open-weight) Mixture-of-Experts (MoE) 언어 모델인 Mellum 2를 선보입니다. Mellum 2는 코드 생성 및 편집, 디버깅, 다단계 추론(multi-step reasoning), 도구 사용(tool use) 및 함수 호출(function calling), 에이전트 기반 코딩(agentic coding), 그리고 대화형 프로그래밍 지원을 아우르며 소프트웨어 엔지니어링에 특화된 범용 언어 모델로, 완성(completion)에 집중했던 4B 밀집(dense) Mellum 모델의 후속작입니다. 아키텍처는 Mixture-of-Experts (64개의 전문가, 8개 활성)를 기반으로 하며, 4개의 KV 헤드를 가진 Grouped-Query Attention, 4개 레이어 중 3개 레이어에 적용된 Sliding Window Attention, 그리고 보조 사전 학습(auxiliary pre-training) 목표이자 투기적 디코딩(speculative decoding)을 위한 내장 초안 모델(draft model) 역할을 동시에 수행하는 단일 Multi-Token Prediction 헤드를 결합합니다. 각 설계 선택은 범용 GPU에서의 추론 효율성을 설계 제약 조건으로 하여 절제 연구(ablation)를 통해 검증되었습니다. 사전 학습(Pre-training)은 혼합 데이터 구성을 다양한 웹 데이터에서 선별된 코드 및 수학 콘텐츠로 점진적으로 전환하는 3단계 커리큘럼을 통해 약 10.6조 개의 토큰에 걸쳐 진행되었으며, FP8 하이브리드 정밀도(hybrid precision) 하에서 Muon을 사용하여 최적화되었고, 0으로 선형 감소하는 Warmup-Hold-Decay 스케줄을 적용했습니다. 사전 학습된 베이스 모델은 레이어 선택적 YaRN을 통해 128K 컨텍스트 창(context window)으로 확장된 후, 두 단계(지도 미세 조정(supervised fine-tuning)에 이은 RLVR)의 사후 학습(post-trained)을 거쳐 두 가지 출시 버전으로 제작되었습니다: 직접 답변하는 Instruct 모델과 최종 답변 전에 명시적인 추론 과정(reasoning trace)을 출력하는 Thinking 모델입니다. 코드 생성, 수학 및 추론, 도구 사용, 지식 및 안전 벤치마크 전반에 걸쳐 Mellum 2는 2.5B 밀집 모델의 토큰당 연산량으로 작동하면서도 4B-14B 범위의 오픈 웨이트 베이스라인들과 경쟁할 만한 성능을 보여줍니다. 우리는 이 보고서와 함께 아키텍처 결정, 데이터 파이프라인, 그리고 그 뒤에 숨겨진 학습 레시피를 Apache 2.0 라이선스 하에 베이스, Instruct, Thinking 체크포인트와 함께 공개합니다.

AI 자동 생성 콘텐츠

원문 바로가기

Mellum2 기술 보고서

요약

핵심 포인트

댓글