NVlabs/Sana
요약
SANA는 고해상도 이미지 및 비디오 생성을 위한 효율성 중심의 코드베이스를 제공하며, 완전한 학습 및 추론 파이프라인을 지원합니다. 최근 업데이트로는 2.6B 제어 가능한 월드 모델인 SANA-WM 출시(720p, 1분 비디오 생성), Sol-RL을 통한 사후 학습 인프라 구축, 그리고 LTX-VAE를 사용한 2K 업스케일링이 포함된 SANA-Video 등이 있습니다. 또한, OpenAI 호환 API를 통해 SGLang에서 지원되는 등 지속적으로 기능과 성능이 확장되고 있습니다.
핵심 포인트
- SANA는 고효율의 이미지/비디오 생성 코드베이스로, 학습 및 추론 전체 파이프라인을 제공합니다.
- SANA-WM (2.6B) 출시: 6-DoF 카메라 제어를 통해 720p, 1분 길이의 비디오 생성이 가능하며 월드 모델링 분야의 새로운 기준점을 제시했습니다.
- Cosmos-RL과의 파트너십을 통해 SANA에 대한 완전한 RL 인프라가 구축되어 사후 학습(SFT/RL)이 용이해졌습니다.
- SGLang 지원 및 OpenAI 호환 API 제공으로 고성능 서빙 환경이 마련되었습니다.
- SANA-Video는 LTX-VAE를 활용하여 2K 해상도로 비디오 업스케일링 기능을 제공합니다.
📚 Docs | SANA | SANA-1.5 | SANA-Sprint | SANA-Video | SANA-WM | Sol-RL
Demo | 🤗 HuggingFace | ComfyUI | SGLang | Cosmos-RL
SANA는 고해상도 이미지 및 비디오 생성을 위한 효율성 중심의 코드베이스로, 완전한 학습(Training) 및 추론(Inference) 파이프라인을 제공합니다. 이 저장소에는 SANA, SANA-1.5, SANA-Sprint, SANA-Video, SANA-WM 및 Sol-RL을 위한 코드가 포함되어 있습니다. 더 자세한 내용은 📚 documentation에서 확인할 수 있습니다.
커뮤니티와 토론하려면 저희 Discord에 참여하세요! 질문이 있거나, 문제에 직면했거나, 기여에 관심이 있다면 주저하지 말고 연락해 주세요!
- 🔥 [2026/05] 🌍
**SANA-WM: 2.6B 제어 가능한 월드 모델 (Controllable World Model)**이 출시되었습니다! 6-DoF 카메라 제어를 통해 720p, 1분 길이의 비디오 생성을 지원합니다. 월드 모델링 (World Modeling) 및 Embodied AI를 위한 새로운 베이스라인입니다. Project | Paper 확인. - 🔥 [2026/04] ⚡
Sol-RL: NVFP4 Rollout, BF16 Training RL을 사용할 수 있습니다! SANA, FLUX.1, 그리고 SD3.5-L을 위한 모든 학습 레시피가 번들로 제공되는 사후 학습 (Post-training) 데이터셋과 함께 출시되었습니다. Sol-RL doc | Page | Paper 확인. - 🔥 [2026/03] 📺
LTX-VAE를 사용하는 SANA-Video 720p 모델이 출시되었습니다. LTX2 Refiner와 함께 사용하여 비디오를 2K 해상도로 업스케일링하세요! Model Zoo, SANA-Video doc 및 refiner에 관한 Blog를 확인하세요. - 🔥 [2026/03] 💪
사후 학습 인프라 (Post Training Infra): SANA × Cosmos-RL— 저희는 SANA를 위한 완전한 RL 인프라를 제공하기 위해 Cosmos-RL과 파트너십을 맺었습니다. 이제 최첨단 알고리즘(예: Diffusion-NFT, Flow-GRPO), 사전 설정된 구성(Configs), 보상 서비스(Reward services) 및 유연한 데이터셋을 사용하여 SANA-Image 및 SANA-Video를 사후 학습(SFT/RL)할 수 있습니다. SANA on Cosmos-RL 및 저희의 Cosmos-RL 통합 문서를 확인하세요. - 🔥 [2026/02] 🚀
SANA가 이제 SGLang에서 지원됩니다! OpenAI 호환 API를 통한 고성능 서빙 (Serving). [Guidance] - 🔥 [2026/01/26]
SANA-Video가 ICLR-2026에서 Oral로 채택되었습니다. 🎉🎉🎉 - 🔥 [2025/12/09] 🎬 LongSANA: 27FPS 실시간 분 단위 비디오 생성 모델의 학습 및 추론 코드가 모두 출시되었습니다. LongLive 팀에 감사드립니다.
참조: [Train] | [Test] | [Weight]
- 🔥 [2025/11/24] 🪶 블로그: Causal Linear Attention이 어떻게 LLM(대규모 언어 모델)과 긴 비디오 생성(long video generation)을 위한 무한한 컨텍스트(infinite context)를 가능하게 하는가.
- 🔥 [2025/11/9] 🎬 소개 영상: Block Causal Linear Attention과 Causal Mix-FFN이 어떻게 작동하는지 보여줍니다.
- 🔥 [2025/11/6] 📺
SANA-Video가 diffusers에 병합되었습니다. 사용 방법. - 🔥 [2025/10/27] 📺
SANA-Video가 출시되었습니다. [README] | [Weights] Text-to-Video, Text-to-Image-to-Video를 지원합니다. - 🔥 [2025/10/13] 📺
SANA-Video가 곧 출시됩니다: 1). 5초 길이의 Linear DiT 비디오 모델, 2). 실시간 분 단위 비디오 생성 (LongLive와 함께). [paper] | [Page]
클릭하여 모든 업데이트 보기
-
✅ [2025/8/20] 더 빠른 추론(inference)과 더 적은 메모리를 위한 새로운 DC-AE-Lite를 출시합니다. [How to config] | [diffusers PR] | [Weight]
-
✅ [2025/6/25] SANA-Sprint가 ICCV'25에 채택되었습니다 🏖️
-
✅ [2025/6/4] SANA-Sprint ComfyUI 노드가 출시되었습니다 [Example].
-
✅ [2025/5/8] SANA-Sprint (One-step diffusion) diffusers 학습 코드가 출시되었습니다 [Guidance].
-
✅ [2025/5/4]
**SANA-1.5 (Inference-time scaling)가 ICML-2025에 채택되었습니다.**🎉🎉🎉 -
✅ [2025/3/22] 🔥
**SANA-Sprint 데모가 Huggingface에 호스팅되었습니다. 직접 체험해 보세요!**🎉 [Demo Link] -
✅ [2025/3/22] 🔥
**SANA-1.5가 ComfyUI에서 지원됩니다!**🎉: ComfyUI Guidance | ComfyUI Work Flow SANA-1.5 4.8B -
✅ [2025/3/22] 🔥
**SANA-Sprint 코드 및 가중치(weights)가 출시되었습니다!**🎉 포함 사항: 학습 및 추론(Inference) 코드와 가중치 / HF가 모두 출시되었습니다. [Guidance] -
✅ [2025/3/21] 🚀 Sana +
Inference Scaling이 출시되었습니다. [Guidance] -
✅ [2025/3/16] 🔥
**SANA-1.5 코드 및 가중치(weights)가 출시되었습니다!**🎉 포함 사항: DDP/FSDP | TAR 파일 WebDataset | 다중 스케일 학습(Multi-Scale Training) 코드와 가중치 | HF가 모두 출시되었습니다. -
✅ [2025/3/14] 🏃
**SANA-Sprint가 출시됩니다!**🎉 Sana의 새로운 one/few-step 생성기입니다. H100에서 1024px 이미지당 0.1초, RTX 4090에서 0.3초가 소요됩니다. 자세한 내용은 다음에서 확인하세요: [Page] | [Arxiv]. 코드는diffusers와 함께 곧 출시될 예정입니다. -
✅ [2025/2/10] 🚀 Sana + ControlNet이 출시되었습니다. [Guidance] | [Model] | [Demo]
-
✅ [2025/1/30] CAME-8bit optimizer 코드를 출시했습니다. 학습 중 더 많은 GPU 메모리를 절약할 수 있습니다. [How to config]
-
✅ [2025/1/29] 🎉 🎉 🎉
SANA 1.5가 출시되었습니다! 효율적인 학습 및 추론 스케일링 (scaling) 방법을 확인하세요! 🚀 [Tech Report] -
✅ [2025/1/24] SVDQuant 및 Nunchaku 추론 엔진 (inference engine)을 기반으로 한 4bit-Sana가 출시되었습니다. 이제 8GB GPU VRAM 내에서 Sana를 실행할 수 있습니다. [Guidance] [Demo] [Model]
-
✅ [2025/1/24] DCAE-1.1이 출시되어 재구성 (reconstruction) 품질이 향상되었습니다. [Model] [diffusers]
-
✅ [2025/1/23]
Sana가 ICLR-2025에서 Oral로 채택되었습니다. 🎉🎉🎉 -
✅ [2025/1/12] DC-AE tiling을 통해 Sana-4K는 모델 오프로드 (model offload) 및 8bit/4bit 양자화 (quantize)를 사용하여 22GB GPU 메모리 내에서 4096x4096px 이미지를 추론할 수 있습니다. 4K Sana는 8GB GPU VRAM 내에서 실행됩니다. [Guidance]
-
✅ [2025/1/11] Sana 코드베이스 라이선스가 Apache 2.0으로 변경되었습니다.
-
✅ [2025/1/10] 8bit 양자화 (quantization)를 사용하여 Sana를 추론합니다. [Guidance]
-
✅ [2025/1/8] Sana-ComfyUI에서 4K 해상도 Sana 모델을 지원하며 워크플로우 (work flow)도 준비되었습니다. [4K guidance]
-
✅ [2025/1/8] 1.6B 4K 해상도 Sana 모델이 출시되었습니다: [BF16 pth] 또는 [BF16 diffusers]. 🚀 20초 이내에 4096x4096 해상도 이미지를 얻으세요! Sana 페이지에서 더 많은 샘플을 확인하세요. 멋진 작업과 지원을 해주신 SUPIR 팀에 감사드립니다.
-
✅ [2025/1/2]
diffusers파이프라인 (pipeline)의 버그가 해결되었습니다. 해결된 PR - ✅ [2025/1/2] Sana-ComfyUI에서 2K 해상도 Sana 모델을 지원하며 워크플로우 (work flow)도 준비되었습니다. -
✅ [2024/12] 1.6B 2K 해상도 Sana 모델이 출시되었습니다: [BF16 pth] 또는 [BF16 diffusers]. 🚀 4초 이내에 2K 해상도 이미지를 얻으세요! Sana 페이지에서 더 많은 샘플을 확인하세요. 멋진 작업과 지원을 해주신 SUPIR 팀에 감사드립니다.
-
✅ [2024/12]
diffusers가 Sana-LoRA 미세 조정 (fine-tuning)을 지원합니다! Sana-LoRA의 학습 및 수렴 (convergence) 속도는 매우 빠릅니다. [Guidance] 또는 [diffusers docs]. -
✅ [2024/12]
diffusers에 Sana가 포함되었습니다! diffusers safetensors의 모든 Sana 모델이 출시되었으며, diffusers 파이프라인 (pipeline)인SanaPipeline,SanaPAGPipeline이 제공됩니다.
, DPMSolverMultistepScheduler (with FlowMatching)
모두 이제 지원됩니다. 선택을 돕기 위한 Model Card를 준비했습니다. - ✅ [2024/12] 안정적인 미세 조정 (fine-tuning)을 위한 1.6B BF16 Sana 모델이 출시되었습니다.
- ✅ [2024/12] Sana를 위한 ComfyUI 노드를 출시합니다. [Guidance]
- ✅ [2024/11] 모든 다국어 (Emoji & 중국어 & 영어) SFT 모델이 출시되었습니다: 1.6B-512px, 1.6B-1024px, 600M-512px, 600M-1024px. 성능 지표는 여기에서 확인할 수 있습니다.
- ✅ [2024/11] Sana Replicate API가 Sana-API에서 출시됩니다.
- ✅ [2024/11] 1.6B Sana 모델이 출시되었습니다.
- ✅ [2024/11] 학습 (Training) & 추론 (Inference) & 지표 (Metrics) 코드가 출시되었습니다.
- ✅ [2024/11]
diffusers작업 중. - [2024/10] 데모 (Demo)가 출시되었습니다.
- [2024/10] DC-AE 코드와 가중치 (weights)가 출시되었습니다!
- [2024/10] 논문 (Paper)이 Arxiv에 게시되었습니다!
우리는 고해상도 이미지 및 비디오 생성을 위한 효율적인 확산 모델 (diffusion models) 시리즈인 SANA를 소개합니다:
SANA: Flux-12B보다 20배 더 작고 100배 더 빠른 최대 4K 해상도의 텍스트-이미지 (Text-to-image) 생성.
SANA-1.5: 더 나은 품질을 위한 효율적인 학습 시간 및 추론 시간 연산 스케일링 (compute scaling).
SANA-Sprint: sCM 증류 (distillation)를 통한 단일/소수 단계 (One/few-step) 생성, H100에서 1024px 이미지당 0.1초 소요.
SANA-Video/LongSANA: Block Linear Attention / LongLive를 이용한 효율적인 비디오 생성.
Sol-RL: NVFP4 Rollout, BF16 학습 RL을 통해 4.64배 빠른 수렴 (convergence) 달성.
SANA-WM: 2.6B 파라미터의 제어 가능한 월드 모델 (world model)로, 6-DoF 카메라 제어를 통해 720p, 1분 길이의 비디오 월드를 생성.
핵심 기술 (Key Techniques):
Linear Attention (선형 어텐션): 고해상도에서의 효율성을 위해 DiT의 일반적인 어텐션 (vanilla attention)을 선형 어텐션 (linear attention)으로 교체.
DC-AE: 잠재 토큰 (latent tokens)을 줄이기 위해 32× 이미지 압축 적용 (기존의 8× 대비).
Decoder-only Text Encoder (디코더 전용 텍스트 인코더): 더 나은 텍스트-이미지 정렬 (text-image alignment)을 위해 인컨텍스트 학습 (in-context learning) 기능을 갖춘 현대적인 디코더 전용 LLM 사용.
Block Causal Linear Attention & Causal Mix-FFN: 긴 비디오 생성을 위한 효율적인 어텐션 (attention) 및 피드포워드 (feedforward) 구조.
Flow-DPM-Solver: 효율적인 학습 및 샘플링을 통해 샘플링 단계 (sampling steps) 단축.
sCM Distillation (sCM 증류): 연속 시간 일관성 증류 (continuous-time consistency distillation)를 통한 1단계 또는 소수 단계 (one/few-step) 생성.
Sol-RL: 더 빠른 강화학습 (RL) 학습을 위해 저정밀도 (NVFP4) 롤아웃 선택 (rollout selection) 및 고정밀도 (BF16) 최적화 수행.
Controllable World Modeling (제어 가능한 월드 모델링): 일관된 월드 생성을 위한 효율적인 롱 컨텍스트 모델링 (long-context modeling) 및 카메라 궤적 제어.
요약하자면 (In summary), Sana는 이미지 및 비디오 생성을 위해 효율적인 학습, 빠른 추론, 그리고 유연한 배포를 통합한 완전한 오픈 소스 프레임워크입니다. 4비트 양자화 (4-bit quantization)를 통해 8GB 미만의 VRAM을 가진 노트북 GPU에서도 배포가 가능합니다.
git clone https://github.com/NVlabs/Sana.git
cd Sana && ./environment_setup.sh sana
import torch
from diffusers import SanaPipeline
pipe = SanaPipeline.from_pretrained(
...
- 📚
전체 문서 (Full Documentation) - 설치 가이드 - 모델 주 (Model Zoo)
- Sana 추론 및 학습 (Sana Inference & Training)
- SANA-Sprint
- SANA-Video
- LongSANA
- SANA-WM (출시 예정)
- ControlNet
- LoRA / DreamBooth
- Sol-RL 사후 학습 (Post-Training)
- 양자화 (Quantization) (4bit / 8bit)
- ComfyUI
- SGLang
| 방법 (Methods) (1024x1024) | 처리량 (Throughput) (samples/s) | 지연 시간 (Latency) (s) | 파라미터 (Params) (B) | 속도 향상 (Speedup) | FID 👇 | CLIP 👆 | GenEval 👆 | DPG 👆 |
|---|---|---|---|---|---|---|---|---|
| FLUX-dev | 0.04 | 23.0 | 12.0 | 1.0× | 10.15 | 27.47 | 0.67 | 84.0 |
| Sana-0.6B | 1.7 | 0.9 | 0.6 | 39.5× | 5.81 | 28.36 | 0.64 | 83.6 |
| Sana-0.6B | 1.7 | 0.9 | 0.6 | 39.5× | 5.61 | 28.80 | 0.68 | 84.2 |
| Sana-1.6B | 1.0 | 1.2 | 1.6 | 23.3× | 5.92 | 28.94 | 0.69 | 84.5 |
| Sana-1.5 1.6B | 1.0 | 1.2 | 1.6 | 23.3× | 5.70 | 29.12 | 0.82 | 84.5 |
| Sana-1.5 4.8B | 0.26 | 4.2 | 4.8 | 6.5× | 5.99 | 29.23 | 0.81 | 84.7 |
| 모델 (Models) | 지연 시간 (Latency) (s) | 파라미터 (Params) (B) | VBench 총점 (Total) ↑ | 품질 (Quality) ↑ | 의미론적 (Semantic) ↑ |
|---|---|---|---|---|---|
| Wan-2.1-14B | 1897 | 14 | 83.73 | 85.77 | 75.58 |
| Wan-2.1-1.3B | 400 | 1.3 | 83.38 | 85.67 | 74.22 |
| SANA-Video-2B | 36 | 2 | 84.05 | 84.63 | 81.73 |
저희는 다음 사항들을 달성하기 위해 최선을 다할 것입니다:
- [✅] 학습 코드 (Training code)
- [✅] 추론 코드 (Inference code)
- [✅] 모델 주 (Model zoo)
- [✅] ComfyUI 노드 (Nodes) (SANA, SANA-1.5, SANA-Sprint)
- [✅] DC-AE Diffusers
- [✅] Diffusers에 Sana 병합 (huggingface/diffusers#9982)
- [✅] @paul에 의한 LoRA 학습 (
diffusers: https://github.com/huggingface/diffusers/pull/10234) - [✅] 2K/4K 해상도 모델 (4K 초해상도 모델을 제공해 준 @SUPIR에게 감사드립니다)
- [✅] 8bit / 4bit 노트북 개발
- [✅] ControlNet (학습 & 추론 & 모델)
- [✅] FSDP 학습 (FSDP Training)
- [✅] SANA-1.5 (더 큰 모델 크기 / 추론 스케일링 (Inference Scaling))
- [✅] SANA-Sprint: 적은 단계의 생성기 (Few-step generator)
- [✅] 더 빠른 DCAE-Lite 가중치 (Faster DCAE-Lite weight)
- [✅] 더 나은 재구성 (re-construction) F32/F64 VAEs
- [✅] SANA-Video: 선형 DiT 비디오 모델, 그리고 실시간 분 단위 비디오 생성
- [✅] RL 사후 학습 (RL Post-training): Cosmos-RL과 협업
- [] SANA 월드 모델 (SANA World Model)
- [] SANA 스트리밍 비디오-투-비디오 편집 (SANA Streaming Video-to-Video Editing)
- [🚀] 미래에 만납시다
다음 오픈 소스 프로젝트들에 감사드립니다:
훌륭한 작업과 코드베이스를 제공해 준 다음 오픈 소스 코드베이스들에 감사드립니다!
- PixArt-α
- PixArt-Σ
- diffusers
- Efficient-ViT
- ComfyUI_ExtraModels
- SVDQuant and Nunchaku
- Open-Sora
- Wan
- LongLive
- Cosmos-RL
SANA를 소개하는 Jeason을 생성해 준 Paper2Video에 감사드립니다😊. 자세한 내용은 Paper2Video를 참조하세요.
다음의 멋진 기여자들에게 감사를 전합니다:
@misc{xie2024sana,
title={Sana: Efficient High-Resolution Image Synthesis with Linear Diffusion Transformer},
author={Enze Xie and Junsong Chen and Junyu Chen and Han Cai and Haotian Tang and Yujun Lin and Zhekai Zhang and Muyang Li and Ligeng Zhu and Yao Lu and Song Han},
...
모든 BibTeX 인용구 펼치기
@misc{xie2025sana,
title={SANA 1.5: Efficient Scaling of Training-Time and Inference-Time Compute in Linear Diffusion Transformer},
author={Xie, Enze and Chen, Junsong and Zhao, Yuyang rectangle and Yu, Jincheng and Zhu, Ligeng and Lin, Yujun and Zhang, Zhekai and Li, Muyang and Chen, Junyu and Cai, Han and others},
...
AI 자동 생성 콘텐츠
본 콘텐츠는 GitHub Trending Python (daily)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기