JLT: Latent Diffusion Transformers에서의 Clean-Latent Prediction
요약
JLT는 잠재 확산 Transformer에서 Clean-latent prediction 방식이 기존의 velocity-prediction 방식보다 효과적임을 입증합니다. 연구 결과, 깨끗한 잠재 공간을 직접 예측하는 것이 저분산 잠재 방향의 노이즈 증폭을 억제하고 모델 성능을 향상시킵니다.
핵심 포인트
- Clean-latent prediction이 저차원 구조 활용에 더 효과적임
- 130M 규모의 JLT 모델을 통해 FLUX.2 VAE 기반 성능 검증
- 속도 회귀 방식의 공분산 하한 및 저분산 방향 증폭 문제 해결
- ImageNet 데이터셋에서 FID-50K 2.50 달성
Clean-data prediction (깨끗한 데이터 예측)을 사용하는 Flow matching은 깨끗한 지점(clean point)을 회귀(regressing)하는 것이 주변의 노이즈가 섞인 양(ambient noised quantity)을 예측하는 것보다 저차원 구조(low-dimensional structure)를 더 효과적으로 활용할 수 있음을 보여주었습니다. 우리는 이미 압축을 통해 원본 픽셀의 변동성(variability)이 상당 부분 제거된 학습된 잠재 공간(learned latent space)으로 이미지가 매핑된 후에도 이 원칙이 유용하게 유지되는지 질문합니다. 우리는 고정된 FLUX.2 VAE 코드 상에서 작동하는 130M 규모의 잠재 확산 Transformer (latent diffusion Transformer)인 JLT를 소개하며, 동일한 표현(representation), 백본(backbone), 그리고 학습 설정 하에서 clean-latent prediction을 매칭된 속도 예측 (velocity-prediction) DiT와 비교합니다. 고정된 오염 시간(corruption time)에 대해 세 변수 $x$, $\epsilon$, 그리고 $v$는 선형적으로 변환 가능하지만, 국소 가우시안 분석 (local Gaussian analysis)에 따르면 속도 회귀 (velocity regression)는 등방성 타겟 공분산 하한 (isotropic target-covariance floor)을 상속받고 저분산 잠재 방향 (low-variance latent directions)을 증폭시키는 반면, clean prediction은 이를 감쇄(damps)시킵니다. ImageNet 256 x 256 데이터셋에서 JLT-B/1은 classifier-free guidance를 사용하여 FID-50K 2.50을 달성하였으며, 속도 예측 대비 큰 matched-target gap을 보였습니다. 이러한 결과는 잠재 확산 (latent diffusion)에서의 예측 타겟이 단순히 서로 교체 가능한 대수적 매개변수화 (algebraic parameterizations)가 아니라, 표현에 의존적인 기하학적 선택 (representation-dependent geometric choices)임을 시사합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기