arXiv논문2026. 06. 16. 12:00

표현 오토인코더(Representation Autoencoders)를 이용한 드리프팅 트랜스포머(Drifting Transformers) 증류

요약

표현 오토인코더(RAE)의 잠재 공간에서 발생하는 이방성과 곡률 문제를 해결하기 위해 Drift-RAE를 제안합니다. 드리프팅 패러다임을 RAE에 직접 적용하여 훈련 안정성을 높였으며, ImageNet 데이터셋에서 기존 SOTA를 능가하는 성능을 입증했습니다.

핵심 포인트

RAE의 풍부한 의미론적 표현이 증류 과정에서 불안정성을 유발함을 규명
Drift-RAE를 통해 RAE 잠재 공간 내 흐름 모델의 증류 안정성 개선
ImageNet 256 데이터셋에서 10k 단계만으로 1.77 FID 달성
기존 RAE 증류 방법론 및 일반 드리프팅 모델 대비 우수한 성능

표현 오토인코더 (Representation Autoencoders, RAEs)는 사전 학습된 인코더 내의 강력한 레이블별 클러스터링된 DINO 특징 덕분에 의미론적으로 더 풍부한 잠재 공간 (latent space)을 제공함으로써 확산 모델 (diffusion models) 및 흐름 모델 (flow models)을 개선해 왔습니다. 그러나 증류 (distillation) 단계에서, 풍부한 의미론적 표현으로 인해 발생하는 심각한 이방성 (anisotropy)과 큰 곡률 (curvatures)은 수렴과 성능을 저해하여 궤적 기반 증류 (trajectory-based distillation)를 불안정하게 만듭니다. 본 연구에서 우리는 RAE 잠재 공간이 새로 제안된 드리프팅 모델 (Drifting Models)을 통해 증류와 호환될 수 있다고 주장합니다. 우리는 먼저 서로 다른 오토인코더 전반에 걸친 곡률 및 등방성 (isotropy) 통계를 정량적으로 연구하며, 이론적으로 드리프팅 모델 (Drifting Model) 자체가 재구성 기반 VAE와 같이 극도로 분산된 공간에서는 실패할 가능성이 매우 높다는 것을 밝혀냅니다. 이러한 점들은 우리가 드리프팅 패러다임을 표현 오토인코더에 직접 적용하도록 동기를 부여합니다. 우리가 제안하는 방법인 Drift-RAE는 드리프팅 (Drifting)을 사용하여 RAE 잠재 공간에서 사전 학습된 흐름 모델 (flow models)을 증류하며, 드리프팅 필드 (drifting fields)를 다른 프레임워크와 이론적으로 정렬함으로써 훈련 안정성을 개선하는 통찰력 있는 수정 사항을 함께 제공합니다. 실험적 증거와 관련하여, 우리는 ImageNet 256 데이터셋에서 단 10k 증류 단계만으로 1.77 FID를 달성하였으며, 이는 최첨단 (state-of-the-art) RAE 증류 방법들을 능가하고 보조적인 MAE 특징 추출기 없이도 기존의 드리프팅 모델 (Drifting Model)과 대등한 성능을 보이는 것으로 나타났습니다. 코드는 공개될 예정입니다.

AI 자동 생성 콘텐츠

원문 바로가기

표현 오토인코더(Representation Autoencoders)를 이용한 드리프팅 트랜스포머(Drifting Transformers) 증류

요약

핵심 포인트

댓글