채널별 벡터 양자화 (Channel-wise Vector Quantization)
요약
기존 패치 기반 토큰화 대신 채널별로 양자화하는 CVQ 패러다임을 제안합니다. 이를 통해 이미지를 시각적 세부 사항의 단계로 표현하며, 채널을 순차적으로 예측하는 CAR 프레임워크로 고품질 이미지 생성을 구현합니다.
핵심 포인트
- 패치 대신 채널을 양자화하는 CVQ 방식 도입
- 채널 순차 예측을 통한 시각적 자기회귀(CAR) 모델 개발
- 16K 이상의 대규모 코드북에서도 100% 활용도 달성
- 전역 구조에서 미세 속성으로 이어지는 생성 방식
- DPG 86.7 및 GenEval 0.79의 높은 생성 성능 입증
우리는 패치별 토큰 (patch-wise tokens)을 채널별 토큰 (channel-wise tokens)으로 대체하는 새로운 이미지 토큰화 패러다임인 채널별 벡터 양자화 (Channel-wise Vector Quantization, CVQ)를 제시합니다. 각 패치 특징 벡터 (patch feature vector)에 이산적 토큰 (discrete token)을 할당하는 기존의 벡터 양자화 (vector quantization)와 달리, CVQ는 특징 맵 (feature map)의 각 채널을 양자화합니다. 이러한 공식화는 이미지를 공간적 패치 (spatial patches)의 그리드가 아닌, 시각적 세부 사항의 이산적 단계 (discrete levels of visual details)로 표현합니다. CVQ를 기반으로, 우리는 "다음 채널 예측 (next-channel prediction)"을 사용하는 새로운 시각적 자기회귀 (visual autoregressive) 프레임워크를 도입합니다. 우리의 채널별 자기회귀 (Channel-wise Autoregressive, CAR) 모델은 이미지를 래스터 순서 (raster order)로 패치 하나씩 렌더링하는 대신, 이미지 채널을 순차적으로 예측하여 점진적으로 풍부해지는 시각적 세부 사항을 생성합니다. 구체적으로, 이 모델은 인간 예술가의 작업 방식과 유사하게 먼저 전역적 구조 (global structure)를 스케치한 다음 미세한 속성 (fine-grained attributes)을 정교화합니다. 실증적으로 우리는 다음을 보여줍니다: (1) CVQ는 별도의 부가적인 기교 없이도 16K 이상의 코드북 (codebook) 크기에서 100%의 코드북 활용도 (codebook utilization)를 달성하며, 기존 VQ에 비해 재구성 품질 (reconstruction quality)을 실질적으로 향상시킵니다; (2) CAR는 DPG 점수 86.7과 GenEval 점수 0.79를 달성하여, 텍스트-이미지 생성 (text-to-image generation)에 대한 강력한 효과를 입증합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기