GEAR: 이미지 합성을 위한 가이드형 엔드투엔드 자기회귀 (Guided End-to-End AutoRegression)

시각적 생성 모델(Visual generative models)은 일반적으로 두 단계로 학습됩니다. 먼저 재구성을 위한 토크나이저(tokenizer)를 학습시킨 후 이를 고정(frozen)하며, 그 다음 생성기(generator)를 이산 인덱스(discrete indices) 또는 연속 잠재 변수(continuous latents)를 기반으로 학습시킵니다. 이러한 디커플링(decoupling)은 토크나이저가 생성기가 모델링하기 쉬운 것이 무엇인지 알지 못하게 만듭니다. 우리는 표현 정렬(representation alignment)에 의해 가이드되는 벡터 양자화(vector-quantized, VQ) 토크나이저와 자기회귀(autoregressive, AR) 생성기를 공동으로 엔드투엔드(end-to-end) 학습시키는 GEAR(Guided End-to-end AutoRegression)를 제시합니다. 주요 장애물은 AR 모델에 입력되는 VQ 인덱스가 미분 불가능(non-differentiable)하여 그래디언트(gradients)가 토크나이저에 도달할 수 없으며, Straight-through estimator가 붕괴된다는 점입니다. GEAR는 코드북 할당(codebook assignment)의 이중 판독(dual read-out)을 통해 이를 해결합니다. 하드(hard)한 원-핫(one-hot) 브랜치는 다음 토큰 예측(next-token prediction)으로 AR을 학습시키는 반면, 미분 가능한 소프트(soft) 브랜치는 토크나이저만을 가이드하기 위해 역전파되는 표현 정렬 손실(representation-alignment loss)을 전달합니다. 이를 통해 AR 모델은 자신이 더 쉽게 예측할 수 있는 인덱스 분포를 향해 토크나이저를 유도합니다. 이는 정렬의 부담을 토크나이저에서 AR로 전환합니다. 즉, 잠재 변수(latent) 자체를 의미론적으로 만드는 확산(diffusion) 측의 레시피와는 반대로, 토크나이저 자체의 특징은 DINOv2와 덜 유사해지는 반면 AR의 특징은 훨씬 더 DINOv2와 유사해집니다. GEAR는 강력한 LlamaGen-REPA 베이스라인 대비 ImageNet gFID 수렴 속도를 최대 10배까지 높였으며, 현저히 더 나은 패치 수준(patch-level) 및 공간적 일관성(spatially-coherent) 특징을 학습하고, 다양한 양자화기(VQVAE, LFQ, IBQ) 및 텍스트-투-이미지(text-to-image) 생성에 걸쳐 일반화됩니다.

✨ 핵심 요약

🔗 가이드형 엔드투엔드(Guided end-to-end). 소프트 할당(soft-assignment) 브릿지를 통해 AR이 토크나이저를 가이드할 수 있게 하여, Straight-through estimator가 붕괴되는 지점에서 정확히 성공합니다. 다음 토큰 손실(next-token loss)은 토크나이저에 영향을 주지 않습니다.
🔄 정렬이 AR로 전환됨. 확산 측의 REPA(REPA-E / VA-VAE)와는 반대로, 토크나이저는 DINOv2와 덜 유사해지고 엔트로피가 낮아지는 반면, AR의 패치당 특징은 재구성을 유지하면서 DINOv2를 훨씬 더 밀접하게 추적합니다.
⚡ 더 빠르고 더 나음.

~10배 더 빠른 ImageNet gFID 수렴; GPIC text-to-image에서 고정된 토크나이저 (tokenizer) 상의 새로운 AR은 베이스라인(baseline)보다 NTP 손실 (loss)은 2.5배, REPA 손실 (loss)은 11.1배 더 빠르게 도달하며, B / L / XL 모델 모두에서 더 나은 gFID를 기록합니다.
🧩 범용적이며 즉시 적용 가능 (drop-in). VQVAE / LFQ / IBQ 전반에 걸쳐 작동하며, 클래스 조건부 (class-conditional) ImageNet 및 text-to-image 전반에 걸쳐 작동합니다 — 튜닝된 토크나이저를 고정하고 표준 파이프라인 (pipeline)에 바로 적용하세요.

arXiv : https://arxiv.org/abs/2606.32039
Full Paper : https://arxiv.org/pdf/2606.32039
HuggingFace : https://huggingface.co/collections/BinLin203/gear-tokenizer
GitHub : https://github.com/Tencent-Hunyuan/GEAR
submitted by /u/pmttyji
[link] [comments]

Insights

GEAR: 이미지 합성을 위한 가이드형 엔드투엔드 자기회귀 (Guided End-to-End AutoRegression)

요약

핵심 포인트

댓글

Vanguard VT 대 State Street SPDW 글로벌 ETF 대결: 어떤 전 세계 범위 펀드가 더 나은 선택인가?

에이전틱 AI 보안: 리스크, OWASP Agentic Top 10, 그리고 방어 패턴 (2026)

AI 글쓰기의 징후: 독자들이 실제로 알아채는 것 (그리고 인간처럼 들리는 법)

Claude Code를 위한 자가 관리형 노트 시스템 구축하기

Vanguard VT 대 State Street SPDW 글로벌 ETF 대결: 어떤 전 세계 범위 펀드가 더 나은 선택인가?

에이전틱 AI 보안: 리스크, OWASP Agentic Top 10, 그리고 방어 패턴 (2026)

AI 글쓰기의 징후: 독자들이 실제로 알아채는 것 (그리고 인간처럼 들리는 법)

Claude Code를 위한 자가 관리형 노트 시스템 구축하기