Multi-Resolution Flow Matching: 단계별 샘플링을 통한 학습이 필요 없는 확산 모델 가속화
요약
MrFlow는 별도의 학습 없이 사전 학습된 Flow Matching 모델의 생성 속도를 획기적으로 높이는 다중 해상도 가속 전략을 제안합니다. 저해상도 구조 생성 후 GAN 기반 초해상도와 고주파 재샘플링을 결합하여, 품질 저하를 최소화하면서 최대 10배 이상의 엔드투엔드 가속을 달성합니다.
핵심 포인트
- 추가 학습이나 커스텀 커널 없이 기존 모델에 즉시 적용 가능
- FLUX.1-dev 및 Qwen-Image에서 10배 이상의 속도 향상 입증
- FID 차이를 1% 이내로 유지하며 시각적 품질 보존
- 타임스텝 증류 전략과 결합 시 최대 25배 가속 가능
타임스텝 증류 (Timestep Distillation) 및 피처 캐싱 (Feature Caching)과 같이 하드웨어에 구애받지 않는 텍ext-to-image 확산 모델 (Diffusion) 가속 전략은 커스텀 커널이나 시스템 수준의 최적화 없이도 추론 시간을 단축할 수 있습니다. 그중에서도 다중 해상도 (Multi-resolution) 생성 전략은 최근 광범위한 관심을 받고 있으며, 별도의 학습 없이도 5배 이상의 속도 향상을 달성했습니다. 그러나 잠재 공간 (Latent space)에서 업샘플링 (Upsampling)을 수행하고 부분적인 영역을 선택적으로 수정하는 설계 방식은 이러한 방법들이 눈에 띄는 흐림 현상(Blurring)이나 아티팩트 (Artifacts)를 유발하게 만듭니다.
이를 해결하기 위해, 우리는 단계별 저해상도-고해상도 파이프라인을 기반으로 사전 학습된 Flow Matching 모델을 위한 학습이 필요 없는 다중 해상도 가속 전략인 MrFlow를 제안합니다. MrFlow는 먼저 저해상도에서 주요 구조를 빠르게 생성한 다음, 경량화된 사전 학습된 GAN 기반 모델을 사용하여 픽셀 공간 (Pixel space)에서 초해상도 (Super-resolution)를 수행합니다. 그 후, 고주파 재샘플링 (High-frequency resampling)을 가능하게 하기 위해 낮은 강도의 노이즈를 주입하고, 마지막으로 고해상도에서 세부 사항을 정교화합니다. FLUX.1-dev 및 Qwen-Image에 대한 정량적 및 정성적 결과에 따르면, MrFlow는 저해상도 샘플링의 이차적 토큰 감소 (Quadratic token reduction) 및 감소된 스텝 요구 사항을 활용하여, 가속 전과 비교하여 FID(OneIG) 차이를 1% 이내로 유지하면서도 10배의 엔드투엔드 (End-to-end) 가속을 달성했습니다. 이는 다른 학습이 필요 없는 가속 전략들을 크게 능가하며, 어떠한 학습이나 런타임 동적 식별도 필요하지 않습니다. MrFlow는 사전 학습된 타임스텝 증류 전략과 직교적으로 직접 결합될 수 있어, 최대 25배에 달하는 더 높은 생성 가속을 달성할 수 있습니다.
주요 특징 (Highlights)
- 학습이 필요 없는 배포 (Training-free deployment): 파인튜닝 (Finetuning), 학습된 업샘플러 (Upsampler) 또는 모델별 재학습이 필요하지 않습니다.
- 커스텀 커널 불필요 (No custom kernels): 구현에는 표준 PyTorch, Diffusers 파이프라인 및 스케줄러 제어를 사용합니다.
- 강력한 공격적 속도 모드 (Strong aggressive-speed regime): MrFlow는 시각적 품질을 유지하면서 Qwen-Image에서 10배 이상의 엔드투엔드 속도 향상을 달성합니다.
- 증류된 모델과 호환 (Works with distilled models).
동일한 파이프라인을 Pi-Flow 및 FLUX-schnell과 같은 사전 학습된 타임스텝 증류 모델 (pretrained timestep-distilled models)과 결합할 수 있습니다.
컴팩트한 단계별 설계 (Compact staged design). 구현체는 Qwen-Image, FLUX.1-dev, FLUX.2 Klein, 그리고 Z-Image 제품군 전반에 걸쳐 전이 가능합니다.
뉴스
[2026/07] 💡 실용적인 팁 (Practical Tips) 섹션을 추가하였으며, 모든 사용자가 유용한 관찰 결과와 시사점을 서로 공유하도록 권장합니다.
[2026/07] 🌱 커뮤니티 기여 영역을 추가하였으며, 개발자들이 MrFlow 포트, 워크플로우 (workflows), 그리고 실험 결과들을 서로 공유하는 것을 환영합니다.
[2026/07] 📰 MrFlow가 Hugging Face Daily Papers에 소개되었습니다.
[2026/07] ⚡ MrFlow ComfyUI 플러그인을 출시합니다.
[2026/07] 🔥 MrFlow 논문을 arXiv에서 확인할 수 있으며, 소스 코드가 공개되었습니다.
대표적인 엔드투엔드 (end-to-end) 속도 향상:
백본 설정 (Backbone Setting) | 엔드투엔드 속도 향상 (End-to-end speedup)
FLUX.1-dev 12 + 1 | 8.25x
Qwen-Image 12 + 1 | 10.3x
FLUX.2 Klein Base 9B 12 + 1 | 8.79x
Z-Image-Turbo 8 + 1 | 21.0x
Qwen-Image + Pi-Flow 4 + 1 | 최대 25x
속도 향상은 텍스트 인코딩 (text encoding), VAE 인코딩/디코딩 (VAE encode/decode), 초해상도 (super-resolution), 노이즈 준비 (noise preparation), 그리고 확산 순방향 패스 (diffusion forward passes)를 포함한 엔드투엔드 방식으로 측정되었습니다.
arXiv : https://arxiv.org/abs/2607.01642
Full Paper : https://arxiv.org/pdf/2607.01642
HuggingFace : https://huggingface.co/Xingyu-Zheng/MrFlow
GitHub : https://github.com/Xingyu-Zheng/MrFlow
submitted by /u/pmttyji
[link] [comments]
AI 자동 생성 콘텐츠
본 콘텐츠는 r/LocalLLaMA의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기