본문으로 건너뛰기

© 2026 Molayo

r/StableDiffusion분석2026. 05. 14. 16:10

비대칭 흐름 모델 (Asymmetric Flow Models)

요약

AsymFlow는 고차원 데이터의 저계수 구조를 활용하여 데이터 예측은 전체 차원에서, 노이즈 예측은 저계수 부분 공간에서 수행하는 비대칭 속도 파라미터화 방식을 제안합니다. 이 모델은 기존 네트워크 구조 변경 없이도 높은 성능을 내며, ImageNet 256x256에서 1.57 FID라는 뛰어난 성적을 기록했습니다. 또한 사전 학습된 잠재 흐름 모델을 픽셀 공간 모델로 효과적으로 미세 조정할 수 있는 새로운 경로를 제시합니다.

핵심 포인트

  • 계수 비대칭 속도 파라미터화(rank-asymmetric velocity parameterization)를 통해 고차원 노이즈 모델링의 효율성 개선
  • ImageNet 256x256 테스트에서 1.57 FID를 달성하며 기존 픽셀 확산 모델을 능가
  • 사전 학습된 잠재 흐름 모델을 픽셀 공간 모델로 미세 조정할 수 있는 최초의 방법론 제공
  • FLUX.2 klein 9B 기반 미세 조정 모델이 픽셀 공간 텍스트-투-이미지 생성 분야에서 새로운 SOTA 달성

논문: https://arxiv.org/abs/2605.12964

초록 (Abstract)

고차원 공간에서의 흐름 기반 생성 (Flow-based generation)은 데이터가 강력한 저계수 구조 (low-rank structure)를 가지고 있더라도, 속도 예측 (velocity prediction)을 위해 고차원 노이즈를 모델링해야 하기 때문에 어렵습니다. 우리는 데이터 예측은 전체 차원 (full-dimensional)을 유지하면서 노이즈 예측은 저계수 부분 공간 (low-rank subspace)으로 제한하는 계수 비대칭 속도 파라미터화 (rank-asymmetric velocity parameterization) 방식인 비대칭 흐름 모델링 (Asymmetric Flow Modeling, AsymFlow)을 제시합니다. 이러한 비대칭 예측으로부터, AsymFlow는 네트워크 구조나 학습/샘플링 절차를 변경하지 않고도 분석적으로 전체 차원의 속도를 복구합니다. ImageNet 256x256에서 AsymFlow는 기존의 DiT/JiT 스타일의 픽셀 확산 모델 (pixel diffusion models)을 큰 차이로 능가하며 선두적인 1.57 FID를 달성했습니다. 또한 AsymFlow는 사전 학습된 잠재 흐름 모델 (pretrained latent flow models)을 픽셀 공간 모델 (pixel-space models)로 미세 조정 (finetuning)할 수 있는 최초의 경로를 제공합니다. 저계수 픽셀 부분 공간을 잠재 공간 (latent space)에 정렬함으로써, 잠재 모델의 고수준 의미론 (high-level semantics)과 구조를 보존하는 원활한 초기화를 제공하며, 따라서 미세 조정은 픽셀 생성을 다시 학습하기보다는 주로 저수준의 불일치 (low-level mismatches)를 개선합니다. 우리는 FLUX.2 klein 9B로부터 미세 조정된 픽셀 AsymFlow 모델이 HPSv3, DPG-Bench, GenEval에서 잠재 기반 모델을 능가하며 픽셀 공간 텍스트-투-이미지 (text-to-image) 생성의 새로운 SOTA (state of the art)를 구축함을 보여주며, 질적으로 실질적으로 향상된 시각적 사실성을 보여줍니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 r/StableDiffusion의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0