본문으로 건너뛰기

© 2026 Molayo

HuggingFace헤드라인2026. 05. 07. 16:48

Apriel-H1: 효율적 추론 모델 정제 (Distillation) 의 놀라운 열쇠

요약

본 기사는 대규모 언어 모델(LLM)의 효율성을 확보하기 위해 '정제(Distillation)' 기술을 적용한 Apriel-H1 모델에 대한 연구 결과를 다룹니다. 핵심은 단순히 데이터를 정제하는 것이 아니라, 강력한 교사 모델(Teacher Model)이 가진 **다단계 추론 패턴**과 같은 구체적이고 취약한 능력을 보존하는 데 있습니다. 저자들은 이 능력을 효과적으로 전달하기 위해 '교사의 SFT 데이터셋에서 추출된 고품질 추론 트레이스'를 사용하고, 정제 과정에서는 역방향 KL 발산(reverse KL divergence)을 적용하여 모델의 높은 확신도를 학습시키는 것이 중요함을 강조합니다.

핵심 포인트

  • 효율적인 LLM 구축은 무한 컴퓨팅이 아닌, 기존 강력한 모델 기반의 '정제'를 통해 실용적으로 달성해야 한다.
  • 단순히 데이터를 정제하는 것을 넘어, 교사 모델의 다단계 추론 패턴(multi-step reasoning patterns)과 같은 구체적이고 취약한 능력을 보존하는 것이 핵심이다.
  • 추론 능력 전달을 위해서는 수학 증명, 코딩 작업 등 명확하고 구조화된 예시가 포함된 고품질 트레이스 데이터셋이 필수적이다.
  • 정제 과정에서는 역방향 KL 발산(reverse KL divergence)을 사용하여 교사가 가진 높은 확신도와 결단력을 학생 모델에게 효과적으로 전달할 수 있다.
  • 성공적인 LLM 아키텍처 변경은 단순히 레이어를 대체하는 것이 아니라, 신뢰할 수 있는 결과를 얻기 위한 체계적이고 단계적인 정제 절차를 필요로 한다.

MiniMax 가 10 월에 효율적 주의 (efficient attention) 를 230B 규모에서 포기한 이유를 설명하는 M2 사후 분석 (post-mortem) 을 발표했을 때, '효율적 주의는 죽었다'라는 이야기가 잠시 유행했습니다. 며칠 만에 Kimi Linear 가 이를 반박했습니다. 진정한 교훈은: 그것은 당신의 제약 조건에 달려있습니다.

우리의 제약 조건은 간단했습니다: 우리는 강력한 15B 추론 모델을 가지고 있었고, 처음부터 다시 시작하지 않고 효율성을 확보해야 했습니다. 20T 토큰의 무한 컴퓨팅 (infinite compute) 은 없었습니다. 첫 날부터부터 아키텍처 공동 설계 (architectural co-design) 의 여유도 없었습니다. 단순히 실용적인 질문: 기존 모델을 통해 정제 (distillation) 를 통해 효율성을 리트로핏 (retrofit) 할 수 있나요?

Spoiler: 네, 하지만 데이터 사용 방식에 대한 직관을 무시할 경우에만 가능합니다.

Apriel-H1 가족: 50 층 중 25-40 Mamba 층을 포함하는 7 개의 체크포인트로, 완전한 효율성 - 품질 (efficiency-quality) 경계를 보여줍니다. 우리 플래그십 Apriel-H1-15b-Thinker-SFT 는 최소한의 품질 손실로 2.1x throughput를 달성합니다: MATH500 과 MTBench 는 각각 몇 점 개선됩니다 (0.90 → 0.92 와 8.30 → 8.58), 반면 GSM8k (0.97 → 0.95), GPQA (0.59 → 0.55), AIME24 (0.70 → 0.65) 는 약간 하락합니다. 총 학습 토큰: 76.8B.

Apriel-H1-15b-Thinker-SFT (녹색) vs 전체 주의 teacher (파란색). 추론 품질은 벤치마크를 가로질러 거의 평평하게 유지되며, throughput 는 컨텍스트 길이에 따라 1.89-2.09x 증가합니다.

전체 상세는 Apriel-H1 논문에서 확인할 수 있습니다. 여기서는 그것이 작동한 핵심 통찰에 집중합니다.

우리가 처음 생각했던 것은: 단순히 정제 데이터 (pretraining data) 를 기반으로 하고, 일부 SFT 로 마무리하는 것입니다.

추론은 견고해 보였습니다. 우리는 이전에 데이터를 본 완전히 새로운 Mamba 층을 삽입하고 있습니다. 이러한 선형 SSM 은 일반 목적 토큰 믹싱을 처음부터 학습해야 합니다. 어떻게 원래 주의 (attention) 층이 본 광범위한 분포와 동일한 노출 없이 효과적인 믹서로 될 수 있나요?

그래서 우리는 그것을 시도했습니다. 그리고 정제 데이터와 SFT 데이터를 혼합하는 것을 시도했습니다. 그것은 작동하지 않았습니다. 정제된 하이브리드는 추론 품질을 잃었고, 때로는 극적으로 잃었습니다.

실제로 작동한 것은: teacher 의 SFT 데이터셋에서的高质量 추론 트레이스 (high-quality reasoning traces) 입니다.

추론 모델을 정제는 일반 다음 토큰 예측 (next-token prediction) 을 전달하는 것이 아닙니다. 기본 모델은 이미 그것을 가지고 있고, 우리는 강력한 15B 기반에서 시작했습니다. 우리가 보존하는 것은 구체적이고 취약한 것입니다: teacher 의 다단계 추론 패턴 (multi-step reasoning patterns).

그러 패턴은 복잡한 주의 메커니즘에서 나타납니다. 수천 토큰 뒤의 컨텍스트를 검색하는 검색 헤드 (retrieval heads). 논리적 연쇄를 인식하고 계속하는 유도 헤드 (induction heads). 결론에 수 단계 후 연결되는 전제와 결론을 연결하는 장기 의존성 (long-range dependencies). 전체주의 (attention) 를 Mamba 의 선형 재귀 (linear recurrence) 로 대체할 때, 이러한 계산 메커니즘이 방해받습니다. 하이브리드는 동일한 추론 결과로 새로운 경로를 발견해야 합니다.

그 발견은 추론 구조가 명확하고 올바른 예제에서 명시적인 노출을 필요로 합니다:

  • 각 사고가 이전 사고에서 따라오는 다단계 수학 증명 (multi-step math proofs)
  • 명확한 논리적 의존성을 가진 코딩 작업 (coding tasks)
  • 상세 설명 체인을 가진 과학적 분석 (scientific analysis with detailed explanatory chains)

반면, 정제 데이터는 너무 소음 (noisy) 하고 너무 확산되어 있습니다. 추론 신호가 사라집니다. 당신은 보존하려는 특정 능력의 구체적인 예제를 집중적으로 필요로 합니다.

데이터 선택을 이해한 후, 우리 디스틸레이션 (Distillation) 방법도 명확해졌습니다. 우리는 역방향 KL 발산 (reverse KL divergence, 온도 1) 을 사용했고, 정방향 KL 는 사용하지 않았습니다. 역방향이 일관되게 승리했습니다. 왜냐하면 우리는 교사가 높은 확신과 명확한 구조를 가진 문제에서 학습하고 있기 때문입니다. 역방향 KL 의 모드 추구 (mode-seeking) 행위는 학생이 이러한 고확신 예측에 결단력을 갖도록 장려합니다. 교사가 확신 있고 올바르게 예측할 때, 학생도 확신을 갖기를 원합니다.

이 인사이트는 전체 접근법의 핵심입니다: 보존하려는 능력과 데이터 디스틸레이션을 매칭시키되, 구축하려는 능력과는 매칭시키지 마세요.

40 개의 attention 레이어를 Mamba 로 교체하고 희망만 가지고 바꿀 수는 없습니다. 우리는 이를 어렵게 배웠고, 결국 신뢰할 수 있는 결과를 얻기 위해 단계를 거친 디스틸레이션 절차를 개발했습니다.

1 단계: 가장 덜 중요한 레이어 식별. 우리는 MMLU 에서 Leave-One-Out (LOO) 분석을 사용했습니다: 각 레이어를 제거하고, 이를 identity 로 교체한 후 감소량을 측정합니다. 중요도를 정렬하고, 하위 25 개 레이어를 MIL(Mamba-in-Llama) 초기화 믹서로 교체합니다. 엔드 투 엔드 디스틸레이션 수행. 이는 우리 H-25 체크포인트에 작동했습니다.

2 단계: 25 레이어 이상의 점진적 변환. LOO 는 개별적으로 중요하지 않은 레이어가 결합 시 중요해짐으로 인해 25 레이어 이후를 분해했습니다. 이를 해결하기 위해 우리는 MIL-Mamba-Replacement (MMR) 라는 동적 휴리스틱을 개발했습니다. 각 남은 attention 레이어에 대해 MIL 로 초기화된 Mamba 믹서를 100 개의 학습 단계로 실행하고 디스틸레이션 손실을 기록합니다. 더 낮은 손실에 수렴하는 레이어는 교체하기 "쉬운" 레이어입니다. 이는 정적 중요도를 아닌 훈련 동역학을 포착합니다.

우리는 점진적으로 진행했습니다: 25 → 27 → 30 → 34 → 37 → 40 Mamba 레이어, MMR 점수에 따라 교체 그룹화. 각 체크포인트는 이전에서 디스틸레이션됩니다.

3 단계: SFT 데이터 엔드 투 엔드 훈련. 목표 Mamba 레이어 수에 도달한 후, 추론 성능이 안정될 때까지 최종 SFT 패스를 수행했습니다. 55.9B 디스틸레이션 토큰과 20.9B SFT 토큰 후, 이는 우리 최종 Apriel-H1-15b-Thinker-SFT 모델을 생성했습니다.

완전한 효율성 프론티어. 각 체크포인트는 누적 훈련 토큰을 보여줍니다. 우리 플래그십 H-30-SFT (Apriel-H1-15b-Thinker-SFT 로 출시됨) 은 76.8B 총 토큰을 사용하여 2.1x throughput 와 0.76 평균 점수를 얻었습니다. 공격적으로 변환된 H-40 변형은 136.5B 토큰을 사용하여 3.4x throughput 를 얻었습니다. 참고: NVIDIA 의 Nemotron-Nano-9B-v2 는 4.6x 와 0.77 점수를 달성하지만, 수백 배의 컴퓨팅 리소스를 필요로 하여 처음부터 훈련했습니다.

우리는 Fast-LLM 을 사용하여 모든 것을 구축했습니다. 우리 오픈 소스 훈련 프레임워크입니다. 핵심 아키텍처 원칙: 대규모 언어 모델 트랜스포머는 모듈러여야 합니다. Attention 과 Mamba 는 동일한 "믹싱" 인터페이스의 다른 구현이며, 자유롭게 교체할 수 있습니다.

Fast-LLM 의 설정 형식에서의 하이브리드 아키텍처:

decoder:
type: "pattern"
blocks:
...

pattern 필드는 레이어 순서를 지정합니다. Apriel-H1-15b-Thinker-SFT 에 대해: 30 개의 mamba_block, 20 개의 attention_block, 중요도에 따라 배치됩니다. 그것이 전부입니다.

디스틸레이션도 설정입니다:

model:
base_model:
head:
...

Fast-LLM 은 그래디언트 누적, 분산 훈련, 텐서 병렬화, 체크포인트링, 대규모 실험을 위한 모든 것을 처리합니다. 오픈 소스이며 Apache 2.0 라이선스를 따릅니다. **이 작업을 재현할 수 있습니다.**因为我们设计了基础设施使其可复现。

왜 모든 체크포인트를 배포할까요? 최적의 성능은 제약 조건에 따라 다릅니다. H-30 은 가장 균형 잡힌 선택입니다. H-40 은 지연 시간 민감형 워크로드 (latency-critical workloads) 에 최대 처리량 (throughput) 을 제공합니다. 중간 단계의 체크포인트를 통해 정확한 트레이드오프를 선택할 수 있습니다.

왜 다른 컨텍스트 길이에서 다른 속도 향상 (speedups) 을 얻나요? Mamba 의 선형 복잡성 (linear complexity) 이 장점은 시퀀스 길이가 증가함에 따라 커집니다. 반면 attention 은 2 차적으로 저하됩니다.

왜 Mamba 만 시도했나요? 우리는 세 가지 이유로 Mamba-1을 사용했습니다: 검증된 디스턴션 (distillation) 기록, 강력한 경험적 성능, 그리고 우리 프레임워크에서 구현이 단순함. 이는 데이터 질문 (data question) 에 집중할 수 있게 했습니다.

Mamba 하이퍼파라미터는 무엇인가요? 상태 크기 16, DT rank 16, inner dimension 4096. Apriel 의 GQA 설정에서 B (입력 projection) 와 x (state) 를 총 attention heads 수에 맞춰 확장했습니다.

왜 더 발전된 변환 방법 (conversion methods) 을 시도하지 않았나요? 우리는 MOHAWK 의 다단계 절차 대신 Mamba-in-Llama 초기화와 지식 디스턴션을 사용했습니다. 후자는 예비 실험에서 유의미한 이점을 보인 것이 없었기 때문입니다.

왜 H-30 모델만 SFT (Supervised Fine-Tuning) 했나요? 우리는 디스턴션된 하이브리드가 표준 포스트 트레이닝을 통해 개선될 수 있음을 검증하기 위해 H-30 만 SFT 를 적용했습니다. 다른 체크포인트는 순수 디스턴션이지만 유사하게 파인튜닝할 수 있습니다.

왜 RL (Reinforcement Learning) 을 탐구하지 않았나요? 이는 지식 디스턴션만으로 추론을 전이할 수 있는지 격리하기 위한 스코핑 결정이었습니다. 답변: 네. 하지만 RL 은 품질 격차를 더 많이 닫아야 합니다. 우리는 미래 버전에서 RL 을 탐구하고 있습니다.

Apriel-H1 이 유사한 컴퓨팅 예산 (compute budgets) 에서 full-attention reasoning 과 맞는지 정말 보였나요? 우리는 full-attention Apriel 과 하이브리드 모델이 pretraining 부터 동일하게 훈련되었는지를 비교하지 않았습니다. 이는 teacher 의 모든 mid-training 과 post-training 을 Apriel-H1 아키텍처로 반복해야 하기 때문입니다. 이는 우리의 컴퓨팅 예산을 초과했습니다. 우리가 주장할 수 있는 것은 디스턴션으로 효율성을 리트로핏하는 것이 실제적이고 효과적이며, 결과적인 하이브리드는 teacher 의 추론 품질과 맞거나 초과할 수 있다는 것입니다.

우리는 Hugging Face Transformers 와 vLLM 에서 Apriel-H1 을 구현했습니다. Transformers 통합은 간단합니다. 우리는 상호 교환 가능한 attention 과 Mamba 레이어를 가진 새로운 모델 클래스를 제공합니다. vLLM 통합은 최근 Mamba cache operations 를 사용하여 continuous batching, prefix caching, chunked prefill 을 사용합니다. vLLM 플러그인은 준비되었습니다. 우리는 오픈소스하기 위해 최종 법적 승인 (legal approval) 을 기다리고 있습니다.

정직한 평가: 하이브리드를 오늘 배포한다는 것은 거친 모서리 (rough edges) 를 의미합니다. 툴링은 빠르게 성숙하고 있지만 turnkey 가 아닙니다. 당신은 커스텀 코드를 작성하고 수치적 행동을 신중하게 검증하며 프레임워크 제한을 우회해야 합니다. 그 비용을 흡수할 수 있는 팀에게는 처리량 향상 (throughput gains) 이 가치가 있습니다. 그렇지 않은 팀에게는 기다림이 올바른 선택일 수 있습니다.

대부분의 팀은 20T-token pretraining 에 무한한 컴퓨팅 자원이 없습니다. 강력한 베이스 모델을 투자하고 효율성 향상을 필요로 한다면, 이 작업은 품질을 보존하는 능력에 맞는 고품질 태스크 특화 데이터를 사용하여 하이브리드로 디스턴션하는 실용적인 경로를 보여줍니다.

놀라운 발견, 추론 데이터로 추론을 디스턴션 (use reasoning data to distill reasoning) 은 후행에서 명백해 보이지만 초기 직관과 모순됩니다. 우리는 이를 검증하고 작동 이유를 설명하며 재현 가능한 인프라를 구축했습니다.

모델: HuggingFace 의 Apriel-H1 컬렉션
학습 프레임워크: GitHub 의 Fast-LLM
선생님 모델 (Teacher model): Apriel-Nemotron-15B-Thinker
논문: Apriel-H1: Towards Efficient Enterprise Reasoning Models

문제가 발견되면 이슈를 제출하세요. 더 나은 레이어 배치 휴리스틱을 발견하셨나요? 알려주세요. Apriel-H1 위에서 흥미로운 것을 만들었나요? 보고하고 싶습니다.

참고 (Citation):

@article{apriel-h1-2025,
title={Apriel-H1: Towards Efficient Enterprise Reasoning Models},
author={SLAM Lab, ServiceNow},
...

핵심 기여자: Oleksiy Ostapenko, Luke Kumar, Raymond Li, Denis Kocetkov, Joel Lamy-Poirier, Torsten Scholak
기여자: Shruthan Radhakrishna, Soham Parikh, Shambhavi Mishra
기술 공동 리더 (Technical co-leads): Torsten Scholak, Sathwik Tejaswi Madhusudhan

AI 자동 생성 콘텐츠

본 콘텐츠는 Hugging Face Blog의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
2

댓글

0