표현 오토인코더 (Representation Autoencoders)를 통한 베이스라인 개선

표현 오토인코더 (Representation Autoencoders, RAE)는 기존의 VAE를 사전 학습된 비전 인코더 (pretrained vision encoders)로 대체합니다. 본 논문에서는 여러 설계 선택지를 체계적으로 조사하여 RAE를 단순화하고 개선할 수 있는 세 가지 통찰을 발견했습니다. 첫째, 표현 (representation)을 최종 레이어만이 아니라 마지막 k개 인코더 레이어의 합으로 정의하는 일반화된 공식을 연구했습니다. 이러한 간단한 변화는 인코더 미세 조정 (finetuning)이나 특화된 데이터 (예: 텍스트, 얼굴) 없이도 재구성 (reconstruction) 성능을 크게 향상시킵니다. 둘째, RAE(사전 학습된 표현을 인코더로 사용)가 표현 정렬 (representation alignment, REPA)을 대체한다는 일반적인 가정을 연구했습니다. REPA는 동일한 표현을 중간 레이어에 증류 (distill)하는 방식입니다. 대규모 실증 분석을 통해 우리는 놀라운 사실을 발견했습니다: RAE와 REPA는 상호 보완적인 작동 메커니즘을 보여주며, 이를 통해 동일한 표현을 중간 확산 레이어 (intermediate diffusion layers)의 인코더와 타겟 (target) 모두로 사용할 수 있습니다. 마지막으로, 기존 RAE는 Classifier-Free Guidance (CFG)를 수행하는 데 어려움이 있으며, AutoGuidance (AG)를 위해 두 번째의 더 약한 확산 모델을 학습시켜야 합니다. 우리는 REPA 자체가 RAE 잠재 공간 (latent space)에서의 x-예측 (x-prediction)으로 간주될 수 있음을 보여줍니다. DiT 모델의 출력을 단순히 재매개변수화 (re-parameterizing)함으로써,

Insights

표현 오토인코더 (Representation Autoencoders)를 통한 베이스라인 개선

요약

핵심 포인트

댓글

내가 모든 저장소에 설치하는 Claude Code 설정: 슬래시 명령어, 리뷰 서브에이전트(subagent), 그리고 훅(hooks)

MCP Deep Dive, Part 4: 모든 도구(및 모든 모델)에 연결되는 MCP 클라이언트 구축하기

후속편: Edge AI 배포를 위한 개발자 가이드: 시작부터

AMD 라데온 역사상 최대 규모의 소프트웨어 업그레이드인 FSR 4.1을 RDNA 3에서 테스트

내가 모든 저장소에 설치하는 Claude Code 설정: 슬래시 명령어, 리뷰 서브에이전트(subagent), 그리고 훅(hooks)

MCP Deep Dive, Part 4: 모든 도구(및 모든 모델)에 연결되는 MCP 클라이언트 구축하기

후속편: Edge AI 배포를 위한 개발자 가이드: 시작부터

AMD 라데온 역사상 최대 규모의 소프트웨어 업그레이드인 FSR 4.1을 RDNA 3에서 테스트