Granite 4.1 LLMs: How They're Built

Granite 4.1 LLMs 의 뒤쪽 데이터 엔지니어링, 사전 학습 (pre-training), 감독 미세 조정 (supervised fine-tuning), 강화학습 (RL) 에 대한 심층 기술적 walkthrough.

저작자: Granite Team, IBM

TL;DR — Granite 4.1 은 ~15T 토큰을 사용하여 다단계 사전 학습 파이프라인 (multi-stage pre-training pipeline) 을 포함하여 훈련된 밀도 높은 (dense), 디코더 전용 (decoder-only) LLM 가족입니다 (3B, 8B, 그리고 30B). 맥락이 최대 512K 토큰까지 확장되는 긴 컨텍스트 확장 (long-context extension) 이 포함되어 있습니다. 모델은 ~4.1M 의 고품질 커스터마이징 샘플을 사용하여 감독 미세 조정 (supervised fine-tuning) 으로 추가적으로 정제되었으며, 정책 기반 (on-policy) GRPO 와 DAPO loss (Yu et al., 2025) 를 통해 강화학습 (RL) 을 적용했습니다. 특히, 더 간단한 밀도 높은 구조와 적은 파라미터를 사용하여 이전 Granite 4.0-H-Small (32B-A9B MoE) 과 맞거나 이를 능가합니다. 모든 Granite 4.1 모델은 Apache 2.0 라이선스 하에 출시됩니다.

링크:

고품질 소형 언어 모델을 구축하는 것은 단순히 컴퓨팅을 확장하는 것 이상의 것입니다—it 는 훈련 전반에 걸쳐 엄격한 데이터 커스터마이징 (data curation) 을 필요로 합니다. Granite 4.1 에서는 양보다 질을 우선시하여 5 개의 사전 학습 단계 (pre-training stages) 를 통해 데이터를 점진적으로 정제했습니다. 우리는 LLM-as-Judge 프레임워크를 사용하여 감독 미세 조정 (supervised fine-tuning) 데이터를 추가적으로 커스터마이징하고, 수학 (math), 코딩 (coding), 명령어 따르기 (instruction following), 일반 채팅 (general chat) 성능을 체계적으로 강화하기 위해 다단계 강화학습 파이프라인 (multi-stage reinforcement learning pipeline) 을 적용했습니다.

Granite 4.1 모델은 디코더 전용 밀도 높은 트랜스포머 아키텍처 (decoder-only dense transformer architecture) 를 사용합니다. 핵심 설계 선택지는 Grouped Query Attention (GQA), Rotary Position Embeddings (RoPE), SwiGLU activations, RMSNorm, 그리고 shared input/output embeddings입니다.

Component	3B Dense	8B Dense	30B Dense
Embedding size	2560	4096	4096
...

세 모델 크기는 모두 동일한 훈련 파이프라인과 데이터 전략을 공유하며, 아키텍처 차원 (architecture dimensions) 만 다릅니다.

Granite 4.1 은 약 15 조 토큰을 사용하여 5 단계 훈련 전략 (five-phase training strategy) 을 적용하여 처음부터 훈련됩니다. 1 단계와 2 단계는 기초 사전 학습 (foundational pre-training) 에 집중하고, 3 단계와 4 단계는 점진적으로 고품질 데이터 Annealing 을 수행하는 중간 훈련 (mid-training) 을 수행하며, 5 단계는 컨텍스트 윈도우를 512K 토큰으로 확장하는 긴 컨텍스트 훈련 (long-context training) 을 도입합니다. 각 단계는 다른 데이터 혼합 (data mixture) 과 학습률 스케줄링 (learning-rate schedule) 을 사용하며, 광범위한 웹 규모 데이터 (broad web-scale data) 에서 더 커스터마이징된 도메인 특화 콘텐츠 (curated, domain-specific content) 로 점차적으로 이동합니다.

Figure 2: The five-phase pre-training pipeline. Phases 1–2 는 사전 학습 (pre-training), Phases 3–4 는 고품질 데이터 Annealing 을 수행하는 중간 훈련 (mid-training), 그리고 Phase 5 는 긴 컨텍스트 훈련 (LCE) 입니다.

Phase 1: 일반적인 학습률 스케줄과 warmup 을 포함한 일반적 훈련 데이터의 혼합으로 광범위한 언어 이해를 확립합니다.

데이터 구성:

CommonCrawl~59% — 일반 웹 데이터Code~20% — 프로그래밍 언어 및 저장소Math~7% — 수학적 추론 데이터Technical~10.5% — 과학 논문, 기술 문서 및 매뉴얼Multilingual~2% — 영어가 아닌 언어 데이터Domain Specific~1.5% — 도메인별 콘텐츠

Phase 2: 코드와 수학 데이터의 비율을 급격히 증가시키고 여전히 일반적인 언어 커버리지를 유지하면서 강력한 추론 능력으로 전환합니다.

데이터 구성:

Math~35% — Phase 1 대비 5 배 증가Code~30% — Phase 1 대비 1.5 배 증가CommonCrawl-HQ~12% — 고품질 일반 크롤링 서브셋Synthetic~9% — 합성 고품질 데이터Technical~10%Multilingual~3%Domain~1%

Phase 3: 더 균형 잡힌 고품질 혼합과 지수 감소 학습률 스케줄을 사용하여 중간 훈련 (mid-training) 단계로 전환합니다. 여기에서 우리는 체인 오브 싱크 (chain-of-thought) 와 합성 인스트럭션 데이터를 섞기 시작합니다.

데이터 구성:

CommonCrawl-HQ~16.67%Math~16.67%Code~16.67%Synthetic~8.5%Technical~12.5%Multilingual~4.5%Long Chain-of-Thought~12.5% — 추론 경로Language Instructions~7.5% — 인스트럭션 튜닝 데이터Code Instructions~4.5% — 인스트럭션 튜닝 데이터

Phase 4: 선형 학습률 감소로 중간 훈련 (mid-training) 을 계속하며 모델이 가장 고품질의 데이터를 집중합니다.

데이터 구성:

CommonCrawl-HQ~40%Code~20%Math~20%Long Chain-of-Thought~6%Code Instructions~5%Language Instructions~9%

Figure 3: 전 훈련 단계에 걸쳐 데이터 혼합이 어떻게 진화하는지. 웹 중심 (Phase 1) 에서 인스트럭션 및 추론 데이터 중심의 고품질 (Phases 3–4) 으로 점진적인 전환을 주목하세요.

Phase 5: 마지막 단계도 중간 훈련 (mid-training) 의 일부이며, 단상 장 컨텍스트 확장 과정을 통해 컨텍스트 윈도우를 4K 에서 512K 로 확장합니다:

32K extension— Phase 4 와 동일한 데이터 혼합128K extension— Phase 4 와 동일한 데이터 혼합512K extension— 80% 책 + 20% 코드 저장소 데이터 (8b 및 30b 만)

LCE 단계는 1e-4 로 시작하여 0 으로 감소하는 지수 학습률 스케줄을 사용합니다.

긴 시퀀스를 처리하면서도 짧은 컨텍스트 성능이 저하되지 않도록 보장하기 위해, 각 LCE (Long Context Extension) 단계를 마친 후 모델 병합을 수행합니다. 베이스 모델의 RULER 벤치마크:

| 모델명 | 32K | 64K | 128K |
|---|---|---|
| granite-4.1-3b-base | 75.0 | 66.6 | 58.0 |
| granite-4.1-8b-base | 83.6 | 79.1 | 73.0 |
| granite-4.1-30b-base | 85.2 | 84.6 | 76.7 |

지도 학습 세밀 조정 (SFT) 은 베이스 모델을 신뢰할 수 있는 지시 사항 준수 보조자로 만드는 과정으로, 데이터 품질이 매우 중요하며—even a small number of incorrect or hallucinated samples can instill undesirable behaviors—오류나 환각이 포함된 샘플이더라도 바람직하지 않은 행동을 심어줄 수 있기 때문입니다. 이를 해결하기 위해 우리는 엄격한 LLM-as-Judge 프레임워크와 규칙 기반 필터링을 적용하여 고품질 샘플을 선별합니다. 이 파이프라인은 각 샘플을 구조적, 의미론적, 행동적 기준에 따라 자동으로 평가하며, 가능한 경우 문제를 수정하고 품질 기준에 미치지 못하는 샘플을 필터링합니다.

Figure 4: SFT 데이터 품질 파이프라인. 원본 대화 데이터는 다차원 평가 척도를 가진 LLM-as-Judge 를 통과하여 수용/경계선/거부 판정을 생성합니다. 환각, 잘못된 전제, 잘못된 계산과 같은 하드 리젝트 결함은 점수 무관하게 자동 거동을 유발합니다.

우리의 엄격한 LLM-as-Judge 프레임워크는 보조자 응답만 평가하며, 시스템 프롬프트, 사용자 입력, 검색 문서, 도구 출력을 엄격히 컨텍스트 정보로 취급합니다. 이는 판사가 모델이 무엇을 말했는지 평가하도록 보장하며, 모델에게 무엇을 해야 하는지 평가하지 않습니다. RAG 설정에서는 검색된 컨텍스트에 기반하지 않은 응답은 환각으로 표시되며, 도구 사용 출력은 허용된 도구 세트와 그 파라미터 스키마에 대해 검증됩니다.

우리는 다중 턴 대화, RAG 증강 응답, 도구 호출 상호작용, 다국어 대화 등 다른 SFT 데이터 유형에 맞게 특화된 판사 프롬프트를 사용합니다. 각 응답은 지시 사항 준수, 정확성, 완전성, 간결성, 자연스러움, 그리고 (선택적) 비판적 사고 검사를 포함한 6 개의 가중치 차원에 대해 점수를 매깁니다. 샘플은 결정론적인 점수 임계값에 따라 수용되거나 경계선으로 표시되거나 거부되며, 환각, 잘못된 전제, 또는 잘못된 계산과 같은 중대한 결함에 대한 하드 리젝트 규칙이 점수를 우선시합니다.

반복적 평가 (semantic evaluation) 를 보완하기 위해 텍스트 정규화 (text normalization), 절단 및 길이 필터링 (truncation and length filtering), 스키마 검증 (schema validation), 누설 탐지 (leakage detection) 을 통해 구조적 무결성을 강제하는 결정론적 규칙 기반 파이프라인을 적용합니다. 최종 전역 중복 제거 단계 (global deduplication step) 를 통해 데이터셋 전체의 고유성을 보장합니다. 모든 필터링 및 수정 작업은 완전한 감사 가능성 (fully auditable) 을 가집니다.

LLM-as-Judge, 규칙 기반 필터링, 전역 중복 제거 파이프라인을 통과한 후, 약 410 만 개의 고품질 샘플에 대해 기본 모델을 미세 조정합니다. 다음 세부 사항은 세 가지 모델 변형 모두에 적용됩니다:

학습 설정:

매개변수	값
컴퓨팅	16 개 노드, 각 노드당 4x GB200
...

SFT 후, 모델의 특정 도메인 전반에 걸친 능력을 더욱 개선하기 위해 다단계 강화 학습 파이프라인을 적용합니다. 단일 RL 패스가 아닌 **다수의 타겟팅된 RL 단계 (multiple targeted RL stages)**를 실행하며, 각 단계는 서로 다른 능력을 최적화합니다.

우리는 On-policy GRPO (Group Relative Policy Optimization) (Shao et al., 2024) 와 DAPO (Decoupled Clip and Dynamic sAmpling Policy Optimization) 손실 (Yu et al., 2025) 을 사용하며, 이는 표준 GRPO 보다 더 안정적인 학습 신호를 제공합니다. 그러나 동적 샘플링의 계산 집약적 특성 (computationally intensive nature of dynamic sampling) 으로 인해, 우리는 훈련 실행 중 이를 끄는 것으로 전환합니다.

매개변수	값
알고리즘	On-policy GRPO 와 DAPO 손실
...

그랜이트 4.1 모델 학습을 위한 강화 학습 파이프라인은 Figure 10에 묘사됩니다. 다양한 강화 학습 레시피 (reinforcement learning recipes) 와 광범위한 실험을 통해, 이 단계의 순서는 재앙적 망각 (catastrophic forgetting) 을 최소화하면서 여러 도메인 전반에 걸친 성능을 최대화하는 것으로 확인되었습니다.

Figure 10: 그랜이트 4.1 강화 학습 파이프라인은 네 가지 연속적인 단계를 포함합니다: 다도메인 RL, RLHF, 정체성 및 지식 교정 RL, 수학 RL.

이 단계에서 모델은 여러 도메인에서 추출된 데이터의 통합 혼합 (unified mixture) 에 대해 공동으로 훈련됩니다. 따라서 모든 경사 업데이트는 전체 작업의 다양성을 반영하며, 재앙적 망각을 방지하고 전반적인 벤치마크 성능을 향상시키며 개별 작업의 회귀를 최소화합니다.

이 단계에서 다루는 다양한 도메인은 다음과 같습니다:

도메인	설명
Math	수학적 추론 및 계산
Science	과학적 지식 및 추론
Logical Reasoning	연역 및 귀납 논리
Instruction Following (IF)	복잡한 지시사항 준수
Structured Output	구조화된 데이터 출력
Text2SQL	데이터베이스 쿼리 생성
Temporal Reasoning	시간 기반 논리 및 순서
General Chat	일반적인 대화 품질
In-context Learning	컨텍스트 예제에서 학습

이 단계에서는 Granite 4.1 모델 전체에 걸쳐 평균화된 45,504 개의 고유 프롬프트 (unique prompts) 를 사용하여 모델을 훈련하였으며, 다중 도메인 강화학습 (multi-domain reinforcement learning) 에 대해 가장 좋은 성능을 보인 것은 학습률 (learning rate) 5e‑7 과 KL-손실 계수 ($eta$) 0.05 입니다.

모델의 유용성 및 대화 능력을 더욱 향상시키기 위해, 우리는 다국어 스칼라 보상 모델 (multilingual scalar reward model) 을 사용하여 일반적 채팅 프롬프트 (generic-chat prompts) 를 훈련했습니다. 이 단계에서는 Alpaca-Eval 에서 SFT 체크포인트에 비해 평균 ~18.9 점의 향상을 관찰했습니다.

기존에 학습된 지식에서 정책 드리프트 (policy drift) 를 완화하기 위해, 우리는 이 단계에서 보수적인 학습률 3e-7 과 더 높은 KL-손실 계수 $eta$ 0.09 를 사용합니다. 이 RLHF 단계에서는 평균 17,920 개의 고유 프롬프트를 사용합니다.

이 단계에서는 모델의 자기식별 능력 (self-identification capabilities) 을 향상시키기 위해, 동일성 및 지식 교정 프롬프트 (identity and knowledge calibration prompts) 에 대해 약 40 번의 훈련 단계를 수행했습니다. 우리는 이 작은 훈련 단계가 모델의 자기식별 능력을 유의미하게 향상시킨다고 관찰했습니다.

RLHF 단계와 유사하게, 학습률 3e-7 과 KL-손실 계수 $eta$ 0.09 를 사용하였으며, 이 단계에서는 1,728 개의 고유 프롬프트를 사용합니다.

우리의 RL 훈련 기간 동안, RLHF 단계가 수학적 벤치마크 점수 (예: GSM8K, DeepMind-Math) 에서 하락을 초래한다는 것을 발견했습니다. Math RL 단계는 모델이 이러한 하락에서 회복하도록 돕고, 수학적 벤치마크에서 원래 SFT 성능을 초과합니다: GSM8K 에서는 평균 ~3.8 점, DeepMind-Math 에서는 평균 ~23.48 점입니다. 이 단계에서는 평균 13,504 개의 고유 프롬프트를 사용하며, 다중 도메인 RL 단계와 유사하게 학습률 5e‑7 과 KL-손실 계수 $eta$ 0.05 를 사용합니다.

Granite 4.1 LLMs: How They're Built

요약

핵심 포인트

댓글