본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 20. 01:19

표현 오토인코더 (Representation Autoencoders)를 통한 베이스라인 개선

요약

본 논문은 기존 VAE를 사전 학습된 비전 인코더로 대체하는 표현 오토인코더(Representation Autoencoders, RAE)의 성능을 개선하는 세 가지 설계 방안을 제시합니다. 인코더의 마지막 k개 레이어를 활용한 표현 정의, RAE와 REPA의 상호 보완적 관계 규명, 그리고 DiT 모델의 재매개변수화를 통한 AutoGuidance 효율화 문제를 다룹니다.

핵심 포인트

  • 마지막 k개 인코더 레이어의 합을 표현으로 정의함으로써 별도의 미세 조정 없이도 재구성 성능을 향상시킴
  • RAE와 REPA(Representation Alignment)는 서로 대체 관계가 아닌 상호 보완적인 메커니즘임을 발견
  • 동일한 표현을 중간 확산 레이어의 인코더와 타겟 모두로 활용 가능함
  • DiT 모델의 출력을 재매개변수화하여 AutoGuidance를 위한 추가 학습 없이 x-예측 문제를 해결

표현 오토인코더 (Representation Autoencoders, RAE)는 기존의 VAE를 사전 학습된 비전 인코더 (pretrained vision encoders)로 대체합니다. 본 논문에서는 여러 설계 선택지를 체계적으로 조사하여 RAE를 단순화하고 개선할 수 있는 세 가지 통찰을 발견했습니다. 첫째, 표현 (representation)을 최종 레이어만이 아니라 마지막 k개 인코더 레이어의 합으로 정의하는 일반화된 공식을 연구했습니다. 이러한 간단한 변화는 인코더 미세 조정 (finetuning)이나 특화된 데이터 (예: 텍스트, 얼굴) 없이도 재구성 (reconstruction) 성능을 크게 향상시킵니다. 둘째, RAE(사전 학습된 표현을 인코더로 사용)가 표현 정렬 (representation alignment, REPA)을 대체한다는 일반적인 가정을 연구했습니다. REPA는 동일한 표현을 중간 레이어에 증류 (distill)하는 방식입니다. 대규모 실증 분석을 통해 우리는 놀라운 사실을 발견했습니다: RAE와 REPA는 상호 보완적인 작동 메커니즘을 보여주며, 이를 통해 동일한 표현을 중간 확산 레이어 (intermediate diffusion layers)의 인코더와 타겟 (target) 모두로 사용할 수 있습니다. 마지막으로, 기존 RAE는 Classifier-Free Guidance (CFG)를 수행하는 데 어려움이 있으며, AutoGuidance (AG)를 위해 두 번째의 더 약한 확산 모델을 학습시켜야 합니다. 우리는 REPA 자체가 RAE 잠재 공간 (latent space)에서의 x-예측 (x-prediction)으로 간주될 수 있음을 보여줍니다. DiT 모델의 출력을 단순히 재매개변수화 (re-parameterizing)함으로써,

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.GR (Graphics)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0