arXiv논문2026. 06. 26. 11:32

LearniBridge: 확산 모델(Diffusion Models) 가속을 위한 특징 캐싱(Feature Caching)의 학습 가능한

요약

확산 트랜스포머(DiT)의 추론 속도를 높이기 위해 특징 캐싱을 활용하는 LearniBridge를 제안합니다. 저차원 부분 공간을 활용한 경량 LoRA 업데이트를 통해 오차 누적 문제를 해결하고, FLUX 및 WAN2.1 등에서 높은 가속 성능을 입증했습니다.

핵심 포인트

특징 캐싱 시 발생하는 오차 누적 문제를 저차원 부분 공간 보정으로 해결
경량 LoRA 업데이트를 통해 단 3~5개의 샘플만으로 효과적인 보정 가능
FLUX, HunyuanVideo, WAN2.1 모델에서 최대 5.87배의 가속 달성
WAN2.1 모델에서 가속 상태에서도 SOTA 대비 VBench 성능 향상

확산 트랜스포머(Diffusion Transformers, DiTs)는 이미지 및 비디오 생성 분야에서 상당한 발전을 이끌어냈으나, 과도한 계산 비용 문제로 어려움을 겪고 있습니다. 특징 캐싱(Feature caching)은 중간 표현(intermediate representations)을 재사용함으로써 추론을 가속화합니다. 기존 방법들은 구현의 단순함을 위해 과거의 특징(historical features)에 의존하지만, 높은 가속 비율에서는 심각한 오차 누적(error accumulation) 문제를 겪습니다. 이러한 한계를 해결하기 위해, 우리는 필수적인 특징 보정(feature correction)의 본질을 조사합니다. 우리는 최적의 보정 업데이트(calibration update)가 다양한 프롬프트(prompts)에 걸쳐 공유되는 저차원 부분 공간(low-rank subspace)으로 특징지어진다는 것을 입증합니다. 이러한 구조적 통찰을 바탕으로, 우리는 경량 LoRA 업데이트를 통해 여러 타임스텝(timesteps)을 연결하는 특징 캐싱을 위한 학습 가능한 보정 메커니즘인 LearniBridge를 제안합니다. 이 메커니즘은 단 3~5개의 학습 샘플만으로도 효과적인 보정을 가능하게 합니다. 이미지 및 비디오 생성에 대한 광범위한 실험 결과, LearniBridge는 FLUX, HunyuanVideo, WAN2.1에서 각각 최대 $5.87 imes$, $5.75 imes$, $4.10 imes$의 가속을 달성했습니다. WAN2.1의 경우, $4.10 imes$ 가속 상태에서 이전의 SOTA(State-of-the-Art) 대비 VBench를 1.28% 향상시켰습니다. 우리의 코드는 https://github.com/Iiiiiiirene/LearniBridge 에서 확인할 수 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

LearniBridge: 확산 모델(Diffusion Models) 가속을 위한 특징 캐싱(Feature Caching)의 학습 가능한

요약

핵심 포인트

댓글