
GEAR: 10배 더 빠른 자기회귀 (Autoregressive) 이미지 생성
요약
Tencent Hunyuan이 개발한 GEAR는 VQ 토크나이저와 AR 생성기를 엔드투엔드로 공동 학습시켜 기존 LlamaGen-REPA보다 10배 빠른 이미지 생성을 구현합니다. 또한 FlashMorph를 통해 트랜스포머를 하이브리드 어텐션 모델로 변환하여 연산 효율성을 높이는 방법론을 제시합니다.
핵심 포인트
- GEAR: VQ 토크나이저와 AR 생성기의 공동 학습을 통한 고속 이미지 생성
- LlamaGen-REPA 대비 약 10배 빠른 자기회귀 이미지 생성 속도 달성
- FlashMorph: 하이브리드 어텐션을 활용한 트랜스포머의 연산 효율화
- 긴 문맥 회상 성능을 유지하면서도 낮은 연산량으로 모델 변환 가능
GEAR: 10배 더 빠른 자기회귀 (Autoregressive) 이미지 생성
Tencent Hunyuan의 새로운 방법론은 VQ 토크나이저 (VQ tokenizers)와 AR 생성기 (AR generators)를 엔드투엔드 (end-to-end)로 공동 학습시켜, 새로운 이중 판독 (dual read-out) 방식으로 LlamaGen-REPA를 능가합니다. 모든 토크나이저는 Hugging Face에 있습니다.
논문 (Paper):
https://paperswithcode.co/paper/2606.32039
…
모델 (Models):
https://huggingface.co/collections/BinLin203/gear-tokenizer
…
코드 (Code):
https://github.com/Tencent-Hunyuan/GEAR
…
하이브리드 어텐션 모델 (Hybrid Attention Models)로의 변형
FlashMorph는 사전 학습된 트랜스포머 (Transformers)를 하이브리드 어텐션 모델 (hybrid attention models)로 변환하여, 더 낮은 연산량으로 강력한 긴 문맥 회상 (long-context recall) 성능을 유지할 수 있도록 어떤 레이어가 전체 어텐션 (full attention)을 유지하고 어떤 레이어가 선형 어텐션 (linear attention)을 사용할지 선택합니다.
ByteDance Seed, Fudan, 그리고 CUHK 연구진에 의해 작성되었습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 X @huggingpapers (검증됨)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기