NVIDIA-NeMo/Megatron-Bridge 업데이트 내역

[05/20/2026]

DeepSeek V4가 이제 main 브랜치에 병합되었습니다! 변환(conversion) 및 추론(inference)에 대한 자세한 내용은 examples README를 참조하세요. -
[05/20/2026]

Nemotron-3 Nano Omni의 day-0 브랜치 지원이 이제 main 브랜치에 병합되었습니다! 30B-A3B MoE 멀티모달(multimodal) 모델로서 체크포인트 변환(checkpoint conversion), 추론(inference), SFT 및 PEFT (LoRA) 예시와 함께 이미지, 비디오, 오디오 및 텍스트 워크플로우를 지원합니다. 전체 과정을 확인하려면 NVIDIA 블로그를 읽거나 examples README를 참조하세요. -
[05/19/2026]

Nemotron-Labs Diffusion이 이제 자기회귀-확산 변환(autoregressive-to-diffusion conversion), 연속 사전 학습(continuous pretraining), 체크포인트 변환(checkpoint conversion) 및 추론(inference) 워크플로우와 함께 main 브랜치에서 지원됩니다. 삼중 모드 언어 모델(tri-mode language model) 개요는 NVIDIA Research 블로그를 참조하세요. -
[05/06/2026]

Gemma 4 VL 26B-A4B가 이제 지원됩니다! Google의 MoE 시각-언어 모델(vision-language model) (총 26B / 활성 파라미터 4B, 128명의 전문가 top-k=8, 전체 주의 집중(full-attention) 레이어에서 K=V 결합을 사용하는 이중 슬라이딩/글로벌 주의 집중(dual sliding/global attention))에 대한 체크포인트 변환(checkpoint conversion), SFT 및 PEFT (LoRA) 레시피를 main 브랜치에서 사용할 수 있습니다. 전체 과정을 확인하려면 examples README를 참조하세요. -
[04/28/2026] Day 0 지원:

이미지, 비디오, 오디오 및 텍스트를 공동으로 처리하는 30B-A3B MoE 멀티모달(multimodal) 모델인 Nemotron-3 Nano Omni를 지원합니다. 체크포인트 변환(checkpoint conversion), SFT 및 LoRA 레시피를 main 브랜치에서 사용할 수 있습니다 — 전체 과정을 확인하려면 examples README를 참조하세요. -
[04/19/2026]

Qwen3.6-35B-A3B가 이제 지원됩니다! Qwen3.6은 Qwen3.5 VL MoE (Qwen3_5MoeForConditionalGeneration)와 동일한 아키텍처를 사용하며, 기존 Qwen3.5-VL 브릿지(bridge)와 즉시 호환되어 코드 변경이 필요하지 않습니다. HF→Megatron 변환 및 추론이 검증되었습니다. -
[04/16/2026]

Megatron Bridge 0.4.0이 출시되었습니다! 새로운 모델 지원 (Kimi 2.5, Nemotron 3 Super, Qwen 3.5 VL, MiniMax M2, Sarvam, MiMo 등), 확산 모델 (diffusion model) 컬렉션, 시퀀스 패킹 (sequence-packing) 개선, FP8 내보내기 (export), 가지치기 (pruning) 및 양자화 (quantization), Transformers 5.x 호환성, 그리고 Python 3.12 마이그레이션이 포함되었습니다. 커뮤니티 기여자분들인 @HollowMan6, @shaltielshmid, @jaeminh, @pavelgein, @ShiftyBlock, @erictang000, @eternally-z, @Hayak3, @mohit-sarvam께 깊은 감사를 드립니다! 전체 릴리스 노트를 확인하세요. -
[04/12/2026]

MiniMax-M2.5 / M2.7을 이제 지원합니다! 두 모델 모두 MiniMax-M2와 동일한 아키텍처를 공유하며 기존 브릿지에서 즉시 작동합니다 — 실제 FP8 체크포인트를 통한 체크포인트 변환 및 추론이 검증되었습니다. -
[04/10/2026]

Qwen3-ASR을 이제 지원합니다! Qwen3의 ASR 모델에 대한 체크포인트 변환 및 추론을 main 브랜치에서 사용할 수 있습니다. -
[04/09/2026]

Bailing MoE V2를 이제 지원합니다! Bailing MoE V2 모델에 대한 체크포인트 변환 및 추론을 main 브랜치에서 사용할 수 있습니다. 커뮤니티 기여를 해주신 @ccclyu님께 감사드립니다! -
[04/07/2026] Megatron Bridge의 PEFT 지원이 PyTorch Conference Europe 2026 강연에서 소개되었습니다.

[04/01/2026]

Kimi K2.5 VL을 이제 지원합니다! Moonshot AI의 Kimi-K2.5-VL 시각-언어 모델 (vision-language model)에 대한 체크포인트 변환, 추론 및 학습 레시피 (training recipes)를 main 브랜치에서 사용할 수 있습니다. -
[03/31/2026]

Megatron Bridge를 위한 에이전트 기술 (Agent Skills)! AI 코딩 에이전트 (Cursor, Claude Code, Codex 등)가 모델 지원 추가, 개발 환경 설정, 성능 튜닝 등을 도울 수 있도록 구조화된 가이드가 포함된 skills/ 디렉토리를 추가했습니다. 직접 사용해 보시고, 기술을 개선하거나 새로운 기술을 추가하기 위한 PR(Pull Request)을 적극 환영합니다! -
[03/26/2026]

Nemotron 3 Super가 이제 main 브랜치에 반영되었습니다! 체크포인트 변환 및 SFT/LoRA 레시피 (120B-A12B)를 메인 브랜치에서 사용할 수 있습니다. 블로그 포스트를 읽어보세요. -
[03/12/2026]

Python 3.10 지원 중단: 다가오는 0.4.0 릴리스와 함께 Python 3.10 지원을 공식적으로 중단합니다. 하위 애플리케이션은 Megatron-Bridge와의 호환성을 유지하기 위해 하한선을 3.12로 높여야 합니다. -
[12/16/2025] Mind Lab은 64개의 H800에서 Megatron-bridge와 VeRL을 사용하여 조 단위 파라미터(Trillion-parameter) 모델을 위한 GRPO LoRA를 학습하는 데 성공했습니다 - 그들의 기술 블로그를 확인하세요.

[12/15/2025] NVIDIA-NeMo-Tron-3-Nano-30B-A3B-FP8에 대한 Day 0 지원! 재현 가능한 코드 및 커스텀 NGC 컨테이너: nvcr.io/nvidia/nemo:25.11.nemotron_3_nano

NeMo Megatron Bridge는 NeMo Framework 내의 PyTorch 네이티브 (PyTorch-native) 라이브러리로, 인기 있는 언어, 시각-언어 (vision-language), 오디오 및 멀티모달 (multimodal) 모델을 위한 사전 학습 (pretraining), SFT 및 LoRA를 제공합니다. 이는 🤗 Hugging Face와 Megatron Core 사이의 강력한 브릿지, 변환 및 검증 레이어 (bridge, conversion, and verification layer) 역할을 합니다. 이 라이브러리는 이러한 형식 간의 양방향 체크포인트 변환 (bidirectional checkpoint conversion)을 제공하여, 다른 프로젝트가 Megatron Core의 병렬성 (parallelism) 기능을 활용하거나 다양한 추론 엔진 (inference engines)을 위해 모델을 내보낼 수 있도록 합니다. 이 브릿지에는 서로 다른 모델 형식 간의 변환 정확도와 체크포인트 무결성 (integrity)을 보장하기 위한 내장 검증 메커니즘이 포함되어 있습니다.

브릿지 상단에서, NeMo Megatron Bridge는 Megatron Core를 활용하여 최첨단 (state-of-the-art) 학습 처리량 (throughput)을 제공하는 성능이 뛰어나고 확장 가능한 PyTorch 네이티브 (PyTorch-native) 학습 루프 (training loop)를 제공합니다. 텐서 병렬성 (tensor parallelism) 및 파이프라인 병렬성 (pipeline parallelism), 혼합 정밀도 (mixed precision, FP8, BF16, FP4 등)와 같은 기능을 통해 사전 학습 (pretraining) 및 미세 조정 (fine-tuning)을 지원합니다. 사용자는 기존의 🤗 Hugging Face 모델을 사용하거나 유연한 엔드 투 엔드 (end-to-end) 워크플로우를 위해 커스텀 PyTorch 모델 정의를 작성할 수 있습니다.

NeMo Megatron Bridge는 이전의 NeMo 학습 스택을 리팩토링(refactor)한 것으로, 개발자에게 더 큰 유연성과 맞춤 설정 가능성을 제공하기 위해 PyTorch 네이티브 (PyTorch-native) 학습 루프를 채택했습니다.

최상의 경험, 최고 성능 및 모든 기능 지원은 NeMo Framework 컨테이너를 통해 제공됩니다. 가장 최신의 $TAG를 가져와 다음 명령을 실행하여 컨테이너를 시작하십시오:

docker run --rm -it -w /workdir -v $(pwd):/workdir \
--entrypoint bash \
--gpus all \
...

개발 설치 및 추가 세부 사항에 대해서는 Contribution 가이드를 참조하십시오.

Megatron Bridge는 3rdparty/Megatron-LM 경로에 Megatron-Core를 git 서브모듈 (submodule)로 고정(pin)합니다.

이 저장소는 두 개의 고정된 커밋을 추적합니다. 하나는 업스트림(upstream) main 브랜치(기본값)의 커밋이고, 다른 하나는 dev 브랜치의 커밋이며, 이는 scripts/switch_mcore.sh를 통해 관리됩니다.

저장소에 커밋된 서브모듈은 항상 main 커밋을 가리킵니다. 아직 main에 반영되지 않은 Megatron-Core의 기능이나 수정 사항이 필요하거나, 향후 MCore 변경 사항에 대한 전방 호환성(forward-compatibility)을 검증해야 할 때는 dev 커밋을 사용하십시오:

./scripts/switch_mcore.sh status # 현재 커밋 표시
./scripts/switch_mcore.sh dev # dev로 전환; 그 다음 실행: uv sync
./scripts/switch_mcore.sh main # 다시 전환; 그 다음 실행: uv sync --locked

참고: uv.lock은 main 커밋을 기준으로 생성됩니다. dev로 전환한 후에는 --locked 없이 uv sync를 사용하십시오. 다시 main으로 전환한 후에는 uv sync --locked를 사용하십시오.

dev 브랜치는 Megatron-LM의 업스트림 dev 브랜치 철학을 따릅니다. 기능들은 실험적이며, 간소화된 리뷰 프로세스를 따르고, 6개월 이내에 안정화(stable) 단계로 승격되거나 폐기(deprecated)되어야 합니다.

시작하려면 위에서 설명한 대로 Megatron Bridge를 설치하거나 NeMo Framework 컨테이너를 다운로드하십시오.

Hugging Face Hub에 로그인하십시오:

huggingface-cli login --token <your token>

변환 전용 퀵스타트 (✅ Core):

from megatron.bridge import AutoBridge
# 1) Hugging Face 모델(hub 또는 로컬 경로)로부터 브리지(bridge) 생성
bridge = AutoBridge.from_hf_pretrained("meta-llama/Llama-3.2-1B", trust_remote_code=True)
...

사전 구성된 레시피(recipes)를 사용한 훈련 퀵스타트:

from megatron.bridge.recipes.llama import llama32_1b_pretrain_config
from megatron.bridge.training.gpt_step import forward_step
from megatron.bridge.training.pretrain import pretrain
...

다음 명령으로 위의 스크립트를 실행할 수 있습니다:

uv run python -m torch.distributed.run --nproc-per-node=<num devices> /path/to/script.py

추가 예시:

변환 스크립트 개요 (Conversion scripts overview)
체크포인트 가져오기/내보내기 (Import/Export checkpoints)
Bridge를 이용한 생성 (Generation with bridge)
Hugging Face (HF)로부터의 멀티 GPU 로딩 (Multi-GPU loading from HF)
HF vs Megatron 출력 비교 (Compare HF vs Megatron outputs)
Bridge를 이용한 Toy RLHF (HF 추론 + Megatron 학습) (Toy RLHF with Bridge (HF inference + Megatron training))

변환 설계 및 고급 사용법에 대한 자세한 내용은 models README를 참조하십시오.

🤗 Hugging Face와 함께하는 Bridge: 상호 운용성을 위해 🤗 Hugging Face와 Megatron 형식 간의 원활한 양방향 변환을 지원합니다 (모델 브리지, 자동 브리지, 변환 예시) - 중간 단계의 전체 체크포인트 없이 온라인 가져오기/내보내기 가능

변환 중 병렬성 인식 (TP/PP/VPP/CP/EP/ETP)
파라미터별 메모리 효율적인 스트리밍 (Memory-efficient per-parameter streaming)
아키텍처 자동 감지 기능이 있는 간단한 고수준 AutoBridge API
Transformer Engine 사용 시 최적화된 경로 제공

커스터마이징의 유연성: 가벼운 커스텀 학습 루프를 통해 데이터 로딩, 분산 학습 (distributed training), 체크포인팅, 평가 및 로깅에서 사용자 정의 로직을 쉽게 구성할 수 있습니다 (학습 프레임워크, 학습 유틸리티)

지도 학습 및 매개변수 효율적 미세 조정 (Supervised & Parameter-Efficient Finetuning): LoRA, DoRA 및 사용자 정의 PEFT 방법을 지원하며, Megatron 기반 모델에 최적화된 SFT 및 PEFT 구현을 제공합니다 (PEFT 구현, 미세 조정 모듈, SFT 데이터셋)

SOTA 학습 레시피 (SOTA Training Recipes): 최적화된 하이퍼파라미터 및 분산 학습 설정을 포함하여 Llama 3와 같은 인기 모델을 위한 사전 구성된 프로덕션 준비 완료 학습 레시피를 제공합니다 (Llama 레시피, 레시피 예시)

성능 최적화: FP8 학습, 모델 병렬성 (model parallelism) 및 메모리 효율적 기술에 대한 내장 지원을 통해 높은 활용도와 수천 개의 노드에 대한 거의 선형적인 확장성 (near-linear scalability)을 제공합니다 (혼합 정밀도, 통신 중첩, 옵티마이저 유틸리티)

Megatron Bridge는 Megatron Core의 기본 모델 아키텍처를 기반으로 구축되었으며, 광범위한 모델에 대해 즉시 사용 가능한 브리지와 학습 레시피를 제공합니다. 전체 모델 브리지 목록은 models 디렉토리를 참조하십시오.

Family	지원 모델 변형 (Supported variants)
Bailing	Ling 2.0 (Bailing)
DeepSeek	DeepSeek V2 / V2 Lite, DeepSeek V3, DeepSeek V4
Falcon	Falcon H1
Gemma	Gemma / Gemma 2, Gemma 3, Gemma 3-VL, Gemma 4-VL (26B-A4B MoE)
GLM	GLM-4.5 / 4.7 / 4.7-Flash, GLM-4.5V, GLM-5 / 5.1
GPT-OSS	GPT-oss
Kimi	Kimi K2, Kimi-K2.5-VL
Llama	Llama 2, Llama 3 / 3.1 / 3.2 / 3.3
MiniMax	MiniMax-M2 / M2.5 / M2.7
Mistral	Mistral, Ministral 3 (3B/8B/14B)
Xiaomi-MiMo	Xiaomi-MiMo
Moonlight	Moonlight
Nemotron	Nemotron H, Nemotron Nano v2, Nemotron-3 Nano, Nemotron-3 Super, Llama Nemotron, Nemotron Nano v2 VL, Nemotron-3 Nano Omni
OLMoE	OLMoE
Qwen	Qwen2 / Qwen2.5, Qwen3, Qwen3-MoE, Qwen3 Next, Qwen2.5-VL, Qwen3-VL, Qwen3.5-VL, Qwen3.6-VL, Qwen2 Audio, Qwen2.5-Omni, Qwen3-Omni, Qwen3-ASR
Sarvam	Sarvam
StepFun	Step-3.5-Flash

레시피가 어떻게 구조화되고, 오버라이드되며, torchrun 또는 NeMo-Run을 사용하여 실행되는지에 대한 개념적 개요는 Using Recipes 가이드를 참조하십시오.

실행 가능한 튜토리얼은 tutorials/recipes/llama에 있으며, 다음 내용을 다룹니다:

모의 데이터 사전 학습을 위한 00_quickstart_pretrain.py
LoRA 설정 - YAML 기반 흐름 및 실행 도우미를 포함하는 01_quickstart_finetune.py

다양한 GPU 시스템(DGX-GB200, DGX-B200, DGX-H100) 및 모델 구성에 걸친 처리량 지표를 포함한 상세 성능 벤치마크는 문서의 Performance Summary를 참조하십시오.

Megatron-Bridge/
├── examples/
│ ├── models/ # Bridge 사용 예시
...

Megatron-Bridge는 Yan Bai가 만든 MBridge의 연속입니다. 커뮤니티 파트너들의 모든 기여와 채택에 감사드립니다:

Mind Lab은 64대의 H800을 사용하여 조 단위 파라미터 모델(Trillion-parameter model)을 위한 GRPO LoRA를 학습시키는 데 Megatron-bridge와 VeRL을 성공적으로 사용했습니다 - 이들의 기술 블로그(techblog)를 확인하세요.
VeRL은 Megatron-Core와의 커넥터(connector) 및 LoRA 지원을 위해 Megatron-Bridge를 채택했습니다.
Slime은 Megatron-Core 체크포인트 변환기(checkpoint converter)로 Megatron-Bridge를 채택했습니다.
SkyRL은 Megatron-Core 커넥터(connector)로 Megatron-Bridge를 채택했습니다.
Nemo-RL은 Megatron-Core 커넥터(connector)로 Megatron-Bridge를 채택했습니다.
커뮤니티 기여: Weixin Group Infrastructure Center의 Guanyou He와 Junyu Wu에게 특별한 감사를 전합니다.

참여 방법에 대한 자세한 내용은 기여자 가이드라인(Contributor Guidelines)을 참조해 주세요.

Insights

NVIDIA-NeMo/Megatron-Bridge 업데이트 내역

요약

핵심 포인트

댓글

Amazon, 해산물 지속 가능성 주장과 관련하여 집단 소송 직면

저비트 양자화 (Low-Bit Quantization) 환경에서의 확산 모델 (Diffusion) 대 자기회귀 (Autoregressive)

Lexar, 중국산 칩을 탑재한 32GB DDR5 메모리 출시 — 3,999 위안(약 592달러)의 가격으로 CXMT 기반 저가형 RAM에

Strands에서의 Swarm: 창발적 핸드오프(handoffs)를 통한 자율적 오케스트레이션

저비트 양자화 (Low-Bit Quantization) 환경에서의 확산 모델 (Diffusion) 대 자기회귀 (Autoregressive)

Lexar, 중국산 칩을 탑재한 32GB DDR5 메모리 출시 — 3,999 위안(약 592달러)의 가격으로 CXMT 기반 저가형 RAM에

Strands에서의 Swarm: 창발적 핸드오프(handoffs)를 통한 자율적 오케스트레이션