GEAR: 이미지 합성을 위한 가이드형 엔드투엔드 자기회귀 (Guided End-to-End AutoRegression)
요약
GEAR는 토크나이저와 자기회귀(AR) 생성기를 엔드투엔드로 공동 학습시키는 새로운 시각적 생성 모델 프레임워크입니다. 소프트 할당 브릿지를 통해 미분 불가능 문제를 해결하고, AR 모델이 예측하기 쉬운 방향으로 토크나이저를 유도하여 학습 효율과 생성 품질을 극대화합니다.
핵심 포인트
- 토크나이저와 AR 생성기의 엔드투엔드 공동 학습 구현
- 이중 판독(dual read-out) 방식으로 미분 불가능 문제 해결
- ImageNet gFID 수렴 속도를 기존 대비 최대 10배 향상
- 다양한 양자화기 및 텍스트-투-이미지 작업에 범용적 적용 가능
시각적 생성 모델(Visual generative models)은 일반적으로 두 단계로 학습됩니다. 먼저 재구성을 위한 토크나이저(tokenizer)를 학습시킨 후 이를 고정(frozen)하며, 그 다음 생성기(generator)를 이산 인덱스(discrete indices) 또는 연속 잠재 변수(continuous latents)를 기반으로 학습시킵니다. 이러한 디커플링(decoupling)은 토크나이저가 생성기가 모델링하기 쉬운 것이 무엇인지 알지 못하게 만듭니다. 우리는 표현 정렬(representation alignment)에 의해 가이드되는 벡터 양자화(vector-quantized, VQ) 토크나이저와 자기회귀(autoregressive, AR) 생성기를 공동으로 엔드투엔드(end-to-end) 학습시키는 GEAR(Guided End-to-end AutoRegression)를 제시합니다. 주요 장애물은 AR 모델에 입력되는 VQ 인덱스가 미분 불가능(non-differentiable)하여 그래디언트(gradients)가 토크나이저에 도달할 수 없으며, Straight-through estimator가 붕괴된다는 점입니다. GEAR는 코드북 할당(codebook assignment)의 이중 판독(dual read-out)을 통해 이를 해결합니다. 하드(hard)한 원-핫(one-hot) 브랜치는 다음 토큰 예측(next-token prediction)으로 AR을 학습시키는 반면, 미분 가능한 소프트(soft) 브랜치는 토크나이저만을 가이드하기 위해 역전파되는 표현 정렬 손실(representation-alignment loss)을 전달합니다. 이를 통해 AR 모델은 자신이 더 쉽게 예측할 수 있는 인덱스 분포를 향해 토크나이저를 유도합니다. 이는 정렬의 부담을 토크나이저에서 AR로 전환합니다. 즉, 잠재 변수(latent) 자체를 의미론적으로 만드는 확산(diffusion) 측의 레시피와는 반대로, 토크나이저 자체의 특징은 DINOv2와 덜 유사해지는 반면 AR의 특징은 훨씬 더 DINOv2와 유사해집니다. GEAR는 강력한 LlamaGen-REPA 베이스라인 대비 ImageNet gFID 수렴 속도를 최대 10배까지 높였으며, 현저히 더 나은 패치 수준(patch-level) 및 공간적 일관성(spatially-coherent) 특징을 학습하고, 다양한 양자화기(VQVAE, LFQ, IBQ) 및 텍스트-투-이미지(text-to-image) 생성에 걸쳐 일반화됩니다.
✨ 핵심 요약
🔗 가이드형 엔드투엔드(Guided end-to-end). 소프트 할당(soft-assignment) 브릿지를 통해 AR이 토크나이저를 가이드할 수 있게 하여, Straight-through estimator가 붕괴되는 지점에서 정확히 성공합니다. 다음 토큰 손실(next-token loss)은 토크나이저에 영향을 주지 않습니다.
🔄 정렬이 AR로 전환됨. 확산 측의 REPA(REPA-E / VA-VAE)와는 반대로, 토크나이저는 DINOv2와 덜 유사해지고 엔트로피가 낮아지는 반면, AR의 패치당 특징은 재구성을 유지하면서 DINOv2를 훨씬 더 밀접하게 추적합니다.
⚡ 더 빠르고 더 나음.
~10배 더 빠른 ImageNet gFID 수렴; GPIC text-to-image에서 고정된 토크나이저 (tokenizer) 상의 새로운 AR은 베이스라인(baseline)보다 NTP 손실 (loss)은 2.5배, REPA 손실 (loss)은 11.1배 더 빠르게 도달하며, B / L / XL 모델 모두에서 더 나은 gFID를 기록합니다.
🧩 범용적이며 즉시 적용 가능 (drop-in). VQVAE / LFQ / IBQ 전반에 걸쳐 작동하며, 클래스 조건부 (class-conditional) ImageNet 및 text-to-image 전반에 걸쳐 작동합니다 — 튜닝된 토크나이저를 고정하고 표준 파이프라인 (pipeline)에 바로 적용하세요.
arXiv : https://arxiv.org/abs/2606.32039
Full Paper : https://arxiv.org/pdf/2606.32039
HuggingFace : https://huggingface.co/collections/BinLin203/gear-tokenizer
GitHub : https://github.com/Tencent-Hunyuan/GEAR
submitted by /u/pmttyji
[link] [comments]
AI 자동 생성 콘텐츠
본 콘텐츠는 r/LocalLLaMA의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기